| BUỔI 8: GROUPBY VÀ AGGREGATIONS — SỨC MẠNH CỦA SỰ TỔNG HỢP

Được viết bởi thanhdt vào ngày 24/03/2026 lúc 22:06 | 6 lượt xem

Sau khi đã dọn dẹp xong dữ liệu, giờ là lúc chúng ta đi tìm những “Insight” (thông tin giá trị). Bạn muốn biết doanh thu trung bình của từng cửa hàng? Hay số lượng đơn hàng theo từng tháng? Groupby chính là công cụ mạnh mẽ nhất để làm việc này.


1️⃣ Nguyên Lý Split – Apply – Combine

Groupby hoạt động theo 3 bước: Chia dữ liệu thành các nhóm (Split) -> Áp dụng phép toán (Apply) -> Kết hợp lại thành kết quả cuối (Combine).

import pandas as pd

# Nhóm theo 'Thành phố' và tính tổng 'Doanh số'
city_sales = df.groupby('Thành phố')['Doanh số'].sum()
print(city_sales)

2️⃣ Tính Toán Nhiều Chỉ Số (Aggregations)

Bạn không chỉ muốn tính Tổng, mà còn muốn biết cả Trung bình và Giá trị lớn nhất trong cùng một truy vấn? Hàm `.agg()` sẽ giúp bạn.

# Tính đồng thời nhiều chỉ số cho cột 'Giá' theo từng 'Loại hàng'
summary = df.groupby('Loại hàng')['Giá'].agg(['sum', 'mean', 'max'])
print(summary)

3️⃣ Pivot Tables (Bảng Tổng Hợp Chéo)

Nếu bạn đã quen với Excel Pivot Table, Pandas cũng có tính năng tương tự nhưng linh hoạt hơn rất nhiều.

# Tạo bảng so sánh doanh số giữa các 'Thành phố' và các 'Quý'
pivot = df.pivot_table(values='Doanh số', index='Thành phố', columns='Quý', aggfunc='sum')

TỔNG KẾT BUỔI 8

Groupby biến hàng triệu dòng dữ liệu chi tiết thành những con số tổng quát mang tính chiến lược. Đây là kỹ năng tối quan trọng để tạo ra các báo cáo quản trị và hiểu được xu hướng của doanh nghiệp. Chúc mừng bạn đã hoàn thành phần trọng tâm về Pandas!


💡 Khám phá bí mật dữ liệu tại: Hướng nghiệp Python – Data Analysis