| BUỔI 7: DATA CLEANING VÀ STORAGE — BIẾN DỮ LIỆU THÔ THÀNH TÀI SẢN

Được viết bởi thanhdt vào ngày 24/03/2026 lúc 23:02 | 5 lượt xem

Sau khi đã cào được hàng nghìn dòng dữ liệu ở các buổi trước, thách thức cuối cùng là: Làm sao để lưu chúng lại một cách ngăn nắp để sử dụng lâu dài? Và làm sao để dọn dẹp những ký tự thừa (khoảng trắng, icon…) để dữ liệu thật “sạch”?


1️⃣ Làm Sạch Dữ Liệu Web (Data Cleaning)

Dữ liệu lấy từ web thường đi kèm với các ký tự \n, \t hoặc các dấu cách thừa. Hãy sử dụng hàm .strip() và biểu thức chính quy (Regex) để xử lý chúng.

clean_text = raw_text.strip().replace('\n', ' ')

2️⃣ Lưu Dữ Liệu Vào CSV (Dùng Cho Excel)

CSV là định dạng phổ biến nhất vì nó cực kỳ nhẹ và có thể mở trực tiếp bằng Excel để xem báo cáo.

import csv

with open('data.csv', 'w', newline='', encoding='utf-8') as f:
    writer = csv.writer(f)
    writer.writerow(['Tên SP', 'Giá'])
    writer.writerows(list_data)

3️⃣ Lưu Dữ Liệu Vào JSON (Dùng Cho App/Web)

Nếu bạn muốn dữ liệu của mình có cấu trúc phức tạp hơn (nồng nhau) để dùng cho các ứng dụng web khác, JSON là sự lựa chọn hoàn hảo.


TỔNG KẾT BUỔI 7

Chúc mừng bạn đã hoàn thành Module 2! Bạn hiện đã có một quy trình khép kín: Lấy dữ liệu -> Làm sạch -> Lưu trữ. Đây chính là nền tảng của các dự án Big Data. Ở Module 3, chúng ta sẽ học cách làm việc với API — cách lấy dữ liệu “chính thống” và mạnh mẽ nhất hiện nay!


💾 Quản trị dữ liệu thông minh tại: Hướng nghiệp Python – Automation