| BUỔI 5: WEB SCRAPING CƠ BẢN — THU THẬP DỮ LIỆU TỰ ĐỘNG VỚI BEAUTIFUL SOUP

Được viết bởi thanhdt vào ngày 24/03/2026 lúc 23:02 | 9 lượt xem

Nếu Selenium là robot điều khiển trình duyệt thì Beautiful Soup là một “chuyên gia bóc tách” dữ liệu. Nó không cần mở trình duyệt, giúp bạn lấy hàng nghìn dòng dữ liệu từ website chỉ trong vài giây với tốc độ cực nhanh.


1️⃣ Thư Viện Requests & Beautiful Soup

Quy trình rất đơn giản: Dùng requests để tải mã nguồn HTML về, sau đó dùng Beautiful Soup để “nấu” và lọc ra những thông tin bạn cần.

[!IMPORTANT]
🚀 Nội dung này thuộc Module 2 của: Khóa học Python Automation thực chiến


2️⃣ Cách Bóc Tách Văn Bản Và Liên Kết

Bạn có thể tìm kiếm phần tử theo thẻ (tag), ID hoặc Class CSS một cách cực kỳ linh hoạt.

import requests
from bs4 import BeautifulSoup

url = "https://example.com"
response = requests.get(url)

# Chuyển đổi HTML sang đối tượng Soup
soup = BeautifulSoup(response.text, 'html.parser')

# Lấy tiêu đề trang
title = soup.find('h1').text
print(f"Tiêu đề: {title}")

# Lấy tất cả các đường link
links = soup.find_all('a')
for link in links:
    print(link.get('href'))

3️⃣ Tại Sao Nên Dùng Beautiful Soup Thay Vì Selenium?

Beautiful Soup không cần khởi động trình duyệt nên tốn ít tài nguyên máy tính hơn và tốc độ nhanh hơn gấp 10-20 lần. Nó là lựa chọn số 1 khi bạn cần quét dữ liệu từ các trang tĩnh hoặc API công khai.


TỔNG KẾT BUỔI 5

Bạn đã nắm được kỹ thuật “cào” dữ liệu cơ bản nhất. Đây là bước đầu tiên để xây dựng các công cụ so sánh giá, theo dõi tin tức tự động. Ở buổi 6, chúng ta sẽ học các kỹ thuật nâng cao để đối phó với những website khó tính hơn!


🌐 Khám phá thế giới nội dung số tại: Hướng nghiệp Python – Automation