Nếu Selenium là robot điều khiển trình duyệt thì Beautiful Soup là một “chuyên gia bóc tách” dữ liệu. Nó không cần mở trình duyệt, giúp bạn lấy hàng nghìn dòng dữ liệu từ website chỉ trong vài giây với tốc độ cực nhanh.
1️⃣ Thư Viện Requests & Beautiful Soup
Quy trình rất đơn giản: Dùng requests để tải mã nguồn HTML về, sau đó dùng Beautiful Soup để “nấu” và lọc ra những thông tin bạn cần.
[!IMPORTANT]
🚀 Nội dung này thuộc Module 2 của: Khóa học Python Automation thực chiến
2️⃣ Cách Bóc Tách Văn Bản Và Liên Kết
Bạn có thể tìm kiếm phần tử theo thẻ (tag), ID hoặc Class CSS một cách cực kỳ linh hoạt.
import requests
from bs4 import BeautifulSoup
url = "https://example.com"
response = requests.get(url)
# Chuyển đổi HTML sang đối tượng Soup
soup = BeautifulSoup(response.text, 'html.parser')
# Lấy tiêu đề trang
title = soup.find('h1').text
print(f"Tiêu đề: {title}")
# Lấy tất cả các đường link
links = soup.find_all('a')
for link in links:
print(link.get('href'))
3️⃣ Tại Sao Nên Dùng Beautiful Soup Thay Vì Selenium?
Beautiful Soup không cần khởi động trình duyệt nên tốn ít tài nguyên máy tính hơn và tốc độ nhanh hơn gấp 10-20 lần. Nó là lựa chọn số 1 khi bạn cần quét dữ liệu từ các trang tĩnh hoặc API công khai.
TỔNG KẾT BUỔI 5
Bạn đã nắm được kỹ thuật “cào” dữ liệu cơ bản nhất. Đây là bước đầu tiên để xây dựng các công cụ so sánh giá, theo dõi tin tức tự động. Ở buổi 6, chúng ta sẽ học các kỹ thuật nâng cao để đối phó với những website khó tính hơn!
🌐 Khám phá thế giới nội dung số tại: Hướng nghiệp Python – Automation