[Python Library Series] Pandas Tutorial for Beginners Part 1

Pandas là thư viện rất quan trọng đối với các lập trình viên Python hiện nay. Thư viện này được ví như backbone của hầu hết các dự án dữ liệu.

Nếu bạn đang có dự định theo ngành khoa học dữ liệu thì điều bắt buộc mà bạn phải làm là tìm hiểu về Pandas. Hy vọng sau chuỗi bài đăng này, chúng ta sẽ biết được những thông tin cần thiết về cách cài đặt, cách sử dụng và cách nó hoạt động với các gói phân tích dữ liệu Python phổ biến khác.

Note: Trước khi tìm hiểu Pandas, bạn nên có kiến thức nền về Python (lists, tuples, dictionaries, functions, and iterations)

Nếu bạn đã sẵn sàng thì chúng ta cùng bắt đầu thôi nào ^^

1. Install and import

Đầu tiên, bạn phải cài đặt gói của thư viện Pandas vào môi trường của mình. Có 2 cách đơn giản như sau:

conda install pandas hoặc pip install pandas

Sau đó, mỗi khi sử dụng thì bạn chỉ cần import nó vào chương trình của mình bằng cách chạy lệnh import pandas as pd

Pandas có 2 thành phần chính đó là Series và DataFrame. Để bạn dễ hình dung thì ta xem DataFrame như là một bảng dữ liệu 2 chiều, trong đó mỗi cột tương ứng là Series

2. How to create DataFrame

Cách đơn giản nhất để tạo một DataFrame là xây dựng từ một Dictionary.

Giả sử ta cần lưu lại lịch sử mua hàng thì DataFrame này sẽ gồm những cột tương ứng với mỗi mặt hàng và mỗi dòng là số lượng mà khách hàng đã chọn. Ví dụ gian hàng này chỉ có 2 loại là cam và táo, có 4 khách hàng đến mua hàng. Chúng ta sẽ tổ chức dữ liệu dưới dạng các cặp key : value như trong đoạn code sau:

import pandas as pd

data = {
    'apples': [3, 2, 0, 1], 
    'oranges': [0, 3, 7, 2]
}

#load data into a DataFrame object:
df = pd.DataFrame(data)

print(df)

Kết quả ta sẽ được output:

Mặc định Pandas sẽ tạo thêm một cột Index ở phía trước để giúp ta dễ dàng truy vấn về sau. Để lấy thông tin khách hàng đầu tiên ta làm bằng cách:

print(df.iloc[0])

Ngoài ra ta có thể định dạng lại cột Index bằng cách thêm index vào lúc tạo DataFrame

import pandas as pd

data = {
    'apples': [3, 2, 0, 1], 
    'oranges': [0, 3, 7, 2]
}

#load data into a DataFrame object:
df = pd.DataFrame(data, index = ["An", "Bình", "Minh", "Hoàng"])

print(df)

Kết quả là

3. Get info about DataFrame

Viewing your data

df.head() #hiển thị mặc định 5 dòng đầu trong dataframe
df.head(20) # hiển thị 20 dòng đầu trong dataframe
hoặc
df.tail() #hiển thị mặc định 5 dòng cuối trong dataframe
df.tail(10) # hiển thị 10 dòng đầu cuối dataframe

Getting info about your data

df.info()

Summary

Việc hiểu tường tận một thư viện trong một thời gian ngắn rất khó, chính vì thế mình sẽ chia nhỏ các phần ra để các bạn có hứng thú học tập hơn. Mình tin chắc rằng thông qua Part 1 thì chúng ta đã hiểu về DataFrame là gì? Tạo và xem thông tin DataFrame bằng cách rất đơn giản.

Ở bài viết sau mình sẽ làm rõ cách thao tác với Pandas để làm sạch và xử lý dữ liệu. Hẹn gặp lại các bạn ở Part 2.

Tài liệu tham khảo

Applied Data Science with Python - Coursera
100 Days of Code: The Complete Python Pro Bootcamp for 2022 - Udemy
Pandas Tutorial - W3School
Python Pandas Tutorial: A Complete Introduction for Beginners

1. Install and import

2. How to create DataFrame

3. Get info about DataFrame

Viewing your data

Getting info about your data

Summary

Tài liệu tham khảo

Cấu trúc dữ liệu trong Python

[Python Library Series] Pandas Tutorial for Beginners Part 2

Các kiểu dữ liệu - Types of Data - [Data Analyst Series]

Cấu trúc dữ liệu trong Python - Phần 2

Phân tích dữ liệu với Pandas - Series DataFrame (Phần 4)

[Series Pandas DataFrame] Phân tích dữ liệu cùng Pandas (Phần 7)

Format code Python tự động sử dụng isort, black, flake8 và pre-commit

Bài học đầu tiên về Python thực tế cùng Mow: Khởi đầu với khai báo biến

Lỗi và xử lý ngoại lệ trong Python

Tổng quan về Python cho người mới học lập trình - MowBlog

1. Install and import

2. How to create DataFrame

3. Get info about DataFrame

Viewing your data

Getting info about your data

Summary

Tài liệu tham khảo

Cấu trúc dữ liệu​ trong Python

[Python Library Series] Pandas Tutorial for Beginners Part 2

Các kiểu dữ liệu - Types of Data - [Data Analyst Series]

Cấu trúc dữ liệu trong Python - Phần 2

Phân tích dữ liệu với Pandas - Series DataFrame (Phần 4)

[Series Pandas DataFrame] Phân tích dữ liệu cùng Pandas (Phần 7)

Format code Python tự động sử dụng isort, black, flake8 và pre-commit

Bài học đầu tiên về Python thực tế cùng Mow: Khởi đầu với khai báo biến

Lỗi và xử lý ngoại lệ trong Python

Tổng quan về Python cho người mới học lập trình - MowBlog

Cấu trúc dữ liệu trong Python