Không nên phân chia dữ liệu có cấu trúc và dữ liệu bán cấu trúc, mà nên phân chia là dữ liệu có cấu trúc dạng bảng và dữ liệu có cấu trúc không phải dạng bảng

Các định dạng dữ liệu thường gặp khi xử lý văn bản.excalidraw

Lý do:: Dữ liệu bán cấu trúc là dữ liệu cấu trúc không theo dạng bảng

Có bạn cho rằng không nên chia như vậy, vì dữ liệu không phải dạng bảng đang quá bự, để mà handle hết 1 cái bự rất khó, nên họ chia nhỏ thêm thành semi-structured và unstructured thôi. Cũng có thể là vậy thật. Mình để ý là ở đây mình chỉ tập trung vào dữ liệu dạng văn bản nên phần đó được điền chi tiết, còn các dạng cấu trúc dữ liệu khác mình chỉ để đại diện một vài cái cho có. Và những cái đó cũng có điểm chạm gần với người làm nhiều với văn bản hơn. Với những người có nhu cầu khác thì họ có thể thấy phân chia kiểu bán cấu trúc sẽ tiện hơn. Có thể khi đó thì dạng có cấu trúc sẽ chỉ còn mỗi dạng bảng mà thôi?