| BUỔI 6: PANDAS DATAFRAME CƠ BẢN — TRÁI TIM CỦA DATA ANALYSIS

Được viết bởi thanhdt vào ngày 24/03/2026 lúc 22:06 | 5 lượt xem

Nếu NumPy là “cơ bắp” về tính toán thì Pandas chính là “bộ não” xử lý dữ liệu. Trong buổi hôm nay, chúng ta sẽ làm quen với DataFrame — cấu trúc dữ liệu dạng bảng (giống Excel) nhưng mạnh mẽ hơn hàng ngàn lần.


1️⃣ Khởi Tạo & Đọc Dữ Liệu

Bạn không cần phải nhập tay từng dòng dữ liệu. Pandas hỗ trợ đọc hầu hết các định dạng tệp phổ biến chỉ bằng một dòng code.

import pandas as pd

# 1. Tạo từ Dictionary
data = {'Tên': ['An', 'Bình'], 'Điểm': [8.5, 9.0]}
df = pd.DataFrame(data)

# 2. Đọc từ file CSV (Phổ biến nhất)
df_csv = pd.read_csv('du_lieu_ban_hang.csv')

# 3. Đọc từ file Excel
df_excel = pd.read_excel('bao_cao_quy.xlsx')

2️⃣ Khám Phá Dữ Liệu Nhanh (Inspection)

Khi có một bảng dữ liệu khổng lồ với hàng triệu dòng, việc đầu tiên là “nhìn lướt qua” để hiểu cấu trúc.

  • df.head(): Xem 5 dòng đầu tiên.
  • df.info(): Xem kiểu dữ liệu và số lượng dòng/cột.
  • df.describe(): Xem các thống kê nhanh (trung bình, min, max,…).

3️⃣ Các Thao Tác Cơ Bản (Basic Operations)

Việc chọn lọc dữ liệu trong Pandas cực kỳ trực quan:

# Chọn 1 cột
ten_hoc_sinh = df['Tên']

# Lọc dữ liệu theo điều kiện (Ví dụ: Điểm > 8)
gioi_df = df[df['Điểm'] > 8]

# Thêm cột mới
df['Xếp loại'] = 'Đạt'

TỔNG KẾT BUỔI 6

Pandas DataFrame là công cụ không thể thiếu của bất kỳ Data Scientist nào. Khi đã hiểu cách đọc và khám phá dữ liệu, bạn đã hoàn thành 50% chặng đường phân tích. Ở buổi tiếp theo, chúng ta sẽ học cách “dọn dẹp” đống dữ liệu thối để chúng trở nên sáng lóng lánh!


🚀 Nâng tầm kỹ năng phân tích tại: Hướng nghiệp Python – Data Analysis