| Phân tích dữ liệu với Pandas & Matplotlib: Biến con số thành biểu đồ

Được viết bởi thanhdt vào ngày 27/01/2026 lúc 19:30 | 126 lượt xem

Bạn đang có một file Excel khổng lồ với hàng nghìn dòng dữ liệu bán hàng? Bạn muốn biết tháng nào doanh thu cao nhất, hay sản phẩm nào đang lỗ vố?

Nếu làm thủ công, bạn sẽ mất cả ngày. Nhưng với bộ đôi Pandas & Matplotlib của Python, bạn chỉ cần vài dòng code để có ngay câu trả lời dưới dạng biểu đồ sinh động.

Mục lục nội dung
1. Quy trình phân tích dữ liệu chuẩn với Pandas
2. Làm sạch dữ liệu (Data Cleaning) – Bước quan trọng nhất
3. Trực quan hóa dữ liệu với Matplotlib
4. Các loại biểu đồ phổ biến và khi nào nên dùng

1. Quy trình phân tích dữ liệu chuẩn với Pandas

Để đi từ một file dữ liệu thô đến một báo cáo chuyên nghiệp, chúng ta sẽ đi qua 4 bước “vàng” trong khoa học dữ liệu.

  1. Load Data: Nhập dữ liệu từ file CSV, Excel hoặc Database.
  2. Clean & Prepare: Xử lý các ô trống, loại bỏ dữ liệu trùng, đổi tên cột.
  3. Analyze: Thực hiện các phép toán (Tổng, Trung bình, Group by).
  4. Visualize/Export: Vẽ biểu đồ hoặc xuất kết quả ra file mới.

2. Làm sạch dữ liệu (Data Cleaning) – Bước quan trọng nhất

Trong ngành dữ liệu có câu: “Garbage in, Garbage out” (Rác vào thì rác ra). Nếu dữ liệu thô bị sai, biểu đồ của bạn sẽ vô nghĩa.

import pandas as pd

df = pd.read_csv("sales_data.csv")

# Loại bỏ các dòng bị trống dữ liệu
df = df.dropna()

# Chỉ lấy những đơn hàng có doanh thu > 1000$
df_high_value = df[df['revenue'] > 1000]

print(df_high_value.describe()) # Xem tóm tắt thống kê

3. Trực quan hóa dữ liệu với Matplotlib

Biểu đồ giúp não bộ con người nắm bắt thông tin nhanh hơn 60.000 lần so với đọc bảng số.

import matplotlib.pyplot as plt

# Vẽ biểu đồ đường đơn giản
plt.plot(df['date'], df['revenue'])
plt.title("Biểu đồ doanh thu theo thời gian")
plt.xlabel("Ngày")
plt.ylabel("USD")
plt.show()

4. Các loại biểu đồ phổ biến và khi nào nên dùng

Matplotlib cung cấp rất nhiều loại biểu đồ để mô tả các khía cạnh khác nhau của dữ liệu.

Thư viện các loại biểu đồ trong Matplotlib

  • Line Chart: Theo dõi sự thay đổi theo thời gian (giá chứng khoán, doanh thu tháng).
  • Bar Chart: So sánh giữa các nhóm (doanh thu giữa các chi nhánh).
  • Scatter Plot: Tìm mối liên hệ giữa 2 biến (mối liên hệ giữa chi phí quảng cáo và đơn hàng).
  • Histogram: Xem sự phân bổ của dữ liệu (phân bổ độ tuổi khách hàng).

Phân tích dữ liệu quá khứ là tốt, nhưng bạn có muốn Python giúp bạn dự báo tương lai không?

Bài tiếp theo sẽ đưa bạn chạm ngõ thế giới Machine Learning – Đỉnh cao của lập trình Python hiện đại.

👉 Python cho Machine Learning: Bước đầu với scikit-learn


Đón xem bài tiếp theo: Machine Learning với Python: Dạy máy tính cách tự học và đưa ra dự báo!**