| BUỔI 15: ADVANCED DATA EXTRACTION — KHAI THÁC DỮ LIỆU TỪ WEB HIỆN ĐẠI (SPA)

Được viết bởi thanhdt vào ngày 24/03/2026 lúc 23:08 | 16 lượt xem

Các trang web hiện đại (Single Page Applications) không tải lại toàn bộ trang mà chỉ cập nhật từng phần bằng AJAX. Selenium thường gặp khó khăn tại đây, nhưng với Playwright, việc lấy dữ liệu từ React hay Angular trở nên dễ dàng hơn bao giờ hết.


1️⃣ Lắng Nghe Mạng Lưới (Network Interception)

Playwright có thể “nghe trộm” các cuộc gọi API ngầm của trình duyệt. Thay vì quét HTML, chúng ta có thể chộp lấy trực tiếp dữ liệu JSON sạch từ máy chủ gửi về.


2️⃣ Xử Lý Dynamic Content & Scrolling

Nhiều trang web (như Facebook, Shopee) yêu cầu bạn phải cuộn chuột xuống thì dữ liệu mới hiện ra (Infinite Scroll). Playwright cung cấp các lệnh cuộn chuột mượt mà để fetch đủ dữ liệu.


3️⃣ Kỹ Thuật Selector Thông Minh

Sử dụng page.locator() kết hợp với văn bản hoặc vị trí (near, left of…) giúp code của bạn không bị hỏng khi giao diện web thay đổi nhẹ nội dung CSS.


TỔNG KẾT BUỔI 15

Bạn đã đạt đến trình độ cao cấp trong việc lấy dữ liệu web. Không một website hiện đại nào có thể làm khó bạn được nữa. Ở bài cuối cùng, chúng ta sẽ học cách tối ưu hóa và đưa robot lên môi trường làm việc thực tế (Production)!


🔎 Khám phá bí mật dữ liệu tại: Hướng nghiệp Python – Automation