Phân tích dữ liệu không chỉ là nhìn vào bảng biểu, mà là hiểu được bản chất của các con số. Thống kê mô tả giúp chúng ta tóm tắt toàn bộ khối dữ liệu khổng lồ thành vài chỉ số then chốt để đưa ra nhận định chính xác.
1️⃣ Chỉ Số Xu Hướng Trung Tâm (Central Tendency)
Giúp chúng ta trả lời câu hỏi: “Nhìn chung, dữ liệu đang tập trung vào đâu?”
- Mean (Trung bình): Tổng giá trị chia cho số lượng phần tử. Rất nhạy cảm với các con số cực lớn hoặc cực nhỏ (Outliers).
- Median (Trung vị): Con số đứng ở chính giữa danh sách khi đã sắp xếp. Trường hợp dữ liệu bị lệch, Trung vị phản ánh thực tế tốt hơn Trung bình.
- Mode (Yếu vị): Giá trị xuất hiện nhiều nhất. Phù hợp cho dữ liệu phân loại (ví dụ: Thành phố nào bán chạy nhất?).
import pandas as pd
# Tính nhanh với Pandas
print(df['Doanh số'].mean())
print(df['Doanh số'].median())
print(df['Sản phẩm'].mode())
2️⃣ Độ Phân Tán (Dispersion)
Hai bộ dữ liệu có cùng số trung bình nhưng có thể hoàn toàn khác nhau về độ ổn định. Đó là lý do chúng ta cần đo lường sự phân tán.
- Standard Deviation (Độ lệch chuẩn): Cho biết dữ liệu có bị “tản mát” xa khỏi số trung bình hay không. Độ lệch chuẩn thấp = dữ liệu ổn định.
- Quartiles (Tứ phân vị): Chia dữ liệu làm 4 phần bằng nhau. Q1, Q2 (Median), Q3. Giúp xác định các giá trị bất thường (Outliers).
3️⃣ Phân Tích Outliers (Giá Trị Bất Thường)
Trong kinh doanh, một đơn hàng cực lớn đột xuất có thể làm sai lệch mọi dự báo. Bạn cần nhận diện chúng bằng Boxplot hoặc công thức IQR (Interquartile Range).
TỔNG KẾT BUỔI 9
Thống kê mô tả là lớp phòng thủ đầu tiên chống lại những ngộ nhận về dữ liệu. Việc hiểu rõ các chỉ số này sẽ giúp bạn giải thích được: “Tại sao doanh thu trung bình tháng này tăng nhưng thực tế hầu hết nhân viên lại không đạt KPI?”.
💡 Khám phá chiều sâu dữ liệu tại: Hướng nghiệp Python – Data Analysis