| BUỔI 7: DATA CLEANING VỚI PANDAS — NGHỆ THUẬT “DỌN DẸP TRƯỚC BỮA TIỆC”

Được viết bởi thanhdt vào ngày 24/03/2026 lúc 22:06 | 6 lượt xem

Người ta thường nói: “80% công việc của một Data Analyst là dọn dẹp dữ liệu”. Dữ liệu thực tế luôn bẩn: thiếu giá trị (NaN), trùng lặp, sai kiểu định dạng. Buổi học hôm nay sẽ biến bạn thành một thợ dọn dẹp dữ liệu chuyên nghiệp.


1️⃣ Xử Lý Dữ Liệu Thiếu (Missing Data)

Khi một bảng dữ liệu có những ô trống (NaN), bạn có hai lựa chọn: Xóa bỏ hoặc Lấp đầy.

# Kiểm tra số lượng giá trị thiếu
print(df.isnull().sum())

# Lựa chọn 1: Xóa toàn bộ dòng có dữ liệu thiếu
df_clean = df.dropna()

# Lựa chọn 2: Lấp đầy bằng giá trị trung bình (Hoặc số 0)
df['Tuổi'] = df['Tuổi'].fillna(df['Tuổi'].mean())

2️⃣ Dữ Liệu Trùng Lặp (Duplicates)

Dữ liệu rác (do nhập lỗi hoặc lỗi hệ thống) thường bị lặp lại nhiều lần. Hãy loại bỏ chúng để đảm bảo tính chính xác cho các thống kê sau này.

# Xem có bao nhiêu dòng bị trùng
print(df.duplicated().sum())

# Xóa các dòng trùng lặp, chỉ giữ lại dòng đầu tiên
df = df.drop_duplicates()

3️⃣ Chuyển Đổi Kiểu Dữ Liệu (Type Conversion)

Đôi khi giá số bị lưu ở dạng chuỗi văn bản, khiến bạn không thể tính toán sum hay mean. Chúng ta cần ép kiểu cho chúng.

# Chuyển cột 'Giá' từ Object (String) sang Float
df['Giá'] = df['Giá'].astype(float)

# Chuyển cột 'Ngày' sang định dạng DateTime chuẩn
df['Ngày'] = pd.to_datetime(df['Ngày'])

TỔNG KẾT BUỔI 7

“Garbage in, Garbage out” — Nếu bạn đưa dữ liệu rác vào mô hình, bạn sẽ nhận được kết quả rác. Kỹ năng dọn dẹp dữ liệu là sự khác biệt giữa một người am nghiệp và một chuyên gia phân tích thực thụ. Hãy luôn kiểm tra và làm sạch dữ liệu trước khi bắt đầu bất kỳ phân tích nào!


💡 Làm chủ dữ liệu thực chiến tại: Hướng nghiệp Python – Data Analysis