Dữ liệu là thông tin không có tổ chức được xử lý để làm cho nó có ý nghĩa. Dữ liệu bao gồm các sự kiện, quan sát, nhận thức, số, ký tự, biểu tượng và hình ảnh có thể được giải thích để có được ý nghĩa. Một trong những cách mà dữ liệu có thể được phân loại là theo cấu trúc của nó. Dữ liệu có thể là: Structured (có cấu trúc); Semi-structured (Bán cấu trúc), Unstructured (phi cấu trúc).
1. Structured data
Dữ liệu có cấu trúc là dữ liệu tuân thủ rõ ràng với mô hình dữ liệu được chỉ định, có thể được lưu trữ trong các lược đồ được xác định rõ như cơ sở dữ liệu và trong nhiều trường hợp có thể được biểu diễn theo các bảng gồm các hàng và cột. Dữ liệu có cấu trúc có thể được thu thập, xuất, lưu trữ và tổ chức trong cơ sở dữ liệu. Một số nguồn dữ liệu có cấu trúc có thể bao gồm:
- Cơ sở dữ liệu SQL
- Các hệ thống xử lý giao dịch trực tuyến (như OLTP) tập trung vào các giao dịch kinh doanh
- Bảng tính như Excel và bảng tính Google
- Biểu mẫu trực tuyến
- Các cảm biến như hệ thống định vị toàn cầu (GPS và RFID)
- Dữ liệu mạng và web. Bạn có thể lưu trữ dữ liệu có cấu trúc trong cơ sở dữ liệu quan hệ hoặc SQL. Bạn cũng có thể dễ dàng kiểm tra dữ liệu có cấu trúc với các phương pháp và công cụ phân tích dữ liệu tiêu chuẩn
2. Semi-structured data
Dữ liệu bán cấu trúc là dữ liệu có một số thuộc tính tổ chức nhưng thiếu lược đồ cố định hoặc ràng buộc. Dữ liệu bán cấu trúc không thể được lưu trữ dưới dạng các hàng và cột như trong cơ sở dữ liệu. Nó chứa các thẻ và phần tử, hoặc siêu dữ liệu, được sử dụng để nhóm dữ liệu và sắp xếp nó theo hệ thống phân cấp. Một số nguồn dữ liệu bán cấu trúc có thể bao gồm:
- E-mail, XML và các ngôn ngữ đánh dấu khác
- TCP/IP Package
- Tệp bị nén
- Dữ liệu tích hợp. XML và JSON cho phép người dùng xác định các thẻ và thuộc tính để lưu trữ dữ liệu ở dạng phân cấp và được sử dụng rộng rãi để lưu trữ và trao đổi dữ liệu bán cấu trúc.
3. Unstructured data
Dữ liệu phi cấu trúc là dữ liệu không có cấu trúc dễ nhận dạng và do đó, không thể được tổ chức trong cơ sở dữ liệu quan hệ chính thống dưới dạng các hàng và cột. Nó không tuân theo bất kỳ định dạng, trình tự, ngữ nghĩa hoặc quy tắc cụ thể nào. Dữ liệu phi cấu trúc có thể sử dụng khi có sự không đồng nhất của các nguồn và có nhiều ứng dụng phân tích kinh doanh. Một số nguồn dữ liệu phi cấu trúc có thể bao gồm:
- Các website
- Dữ liệu truyền thông xã hội
- Hình ảnh ở các định dạng tệp khác nhau (JPEG, GIF và PNG,..)
- Tệp video và âm thanh
- Tài liệu và tệp PDF
- PowerPoint
- Media logs và khảo sát. Dữ liệu phi cấu trúc có thể được lưu trữ trong các tệp và tài liệu (chẳng hạn như tài liệu Word) để phân tích thủ công hoặc trong cơ sở dữ liệu NoQuery có các công cụ phân tích riêng để kiểm tra loại dữ liệu này.
Tổng kết
Tổng kết lại:
- Dữ liệu có cấu trúc là dữ liệu được tổ chức tốt trong các định dạng có thể được lưu trữ trong cơ sở dữ liệu và có thể sử dụng phương thức và công cụ phân tích dữ liệu tiêu chuẩn;
- Dữ liệu bán cấu trúc là dữ liệu được tổ chức và dựa vào các thẻ meta để nhóm và phân cấp;
- Dữ liệu phi cấu trúc là dữ liệu không được tổ chức theo quy ước dưới dạng các hàng và cột ở một định dạng cụ thể