📊Tổ chức, phân tích dữ liệu
-
-:
-
Định dạng dữ liệu:
- YAML thì để con người dễ đọc, còn JSON là để máy dễ đọc
- Chuyển từ YAML sang JSON
- YAML được sinh ra để con người đọc và viết metadata một cách dễ dàng
- JSON hữu ích trong việc truyền dữ liệu vì nó hướng đến việc trở thành phần giao của các ngôn ngữ, chứ không phải phần hợp của chúng
- JSON không cho phép để dư dấu phẩy, không có comment, bắt buộc phải dùng ngoặc kép, key phải được đóng trong ngoặc kép
- JSON là cách để biểu diễn vật thể ra chữ, chứ tự nó không phải là vật thể
- JSON Schema dùng để đảm bảo file JSON được viết đúng
- Dữ liệu dưới dạng cơ sở dữ liệu đảm bảo các bên tham gia nhập dữ liệu cùng một định dạng
- Giao diện block cho phép người dùng linh hoạt hơn mà vẫn giữ được sự cấu trúc
- Khó có thể copy dữ liệu dạng block giữa các app khác nhau
- Mở rộng quy mô bằng việc nâng cấp RAM, CPU dễ hơn với SQL. Mở rộng quy mô bằng việc chạy cùng lúc nhiều máy dễ hơn với NoSQL
- Việc phân loại SQL và NoSQL giống như việc phân loại người dị tính hợp giới và người không dị tính hợp giới, hoặc phân loại người Kinh và người không Kinh
- RDF có thể được biểu diễn bằng JSON-LD
- Chữ ML trong HTML, XML, YAML, TOML là viết tắt của markup language
- Ngôn ngữ đánh dấu
- XML là dạng dữ liệu bán cấu trúc
- Ngôn ngữ đánh dấu mạnh có thể sử dụng cho dữ liệu có cấu trúc vì spec của nó có nói rõ dữ liệu nên được lưu thế nào
- Định dạng dữ liệu
-
Mô hình dữ liệu:
- Các chương trình ứng dụng không giao tiếp trực tiếp với CSDL mà qua một trung gian gọi là hệ quản trị cơ sở dữ liệu
- DBMS cấu trúc những cách ta tổ chức và tương tác với mọi dữ liệu được lưu trữ
- Excel không phù hợp cho việc lập cơ sở dữ liệu
- File Google Docs không thực sự là file
- Ứng dụng quản lý là một dạng giao diện giữa người dùng và cơ sở dữ liệu
-
Phân tích dữ liệu:
- Cách để AI không bị ảo giác là kêu nó viết query cho Wikidata
- Numpy và Pandas
- Phân tích dữ liệu
- Concept map, knowledge graph
- The Semantic Web is essentially a distributed-objects framework
- Thế mạnh của RDF triplestore là tạo ra những liên kết mới không có sẵn lúc nhập vào
- Các công cụ lắng nghe xã hội có sẵn giống như một ảnh chụp màn hình nhanh về những gì đang diễn ra
- Feature Extraction, Text Representation, Text Extraction, Text Vectorization là những cái tên khác nhau cho cùng một thứ
- Mô hình bản chất là một phép biến đổi không gian vector
- Mô hình chủ đề rất hữu dụng cho việc diễn giải
- Bản chất của mô hình chủ đề là tô màu cho văn bản và từ
- SVD ban đầu là để tìm ra một phép xoay không gian mà vẫn giữ nguyên tích vô hướng của các vector
- tf-idf giúp xác định độ quan trọng của một từ trong một văn bản trong bộ văn bản
- tf-idf mạnh hơn count vector
- Mô hình trích chọn từ
- Không giám sát nghĩa là giả định rằng người huấn luyện không có giả định nào
- Gensim tập trung vào mô hình chủ đề
- Tổng quan về mô hình chủ đề
- Phân tích xu hướng, NLP
- Tổng quan về xử lý tiếng Việt
- Bộ từ trong dictionary sẽ quyết định bộ vector
- Túi từ không phân biệt được những câu có cùng các từ bởi nó không phân biệt thứ tự trước sau của các từ trong một câu
- Việc biểu diễn các từ dưới dạng các vector one-hot chỉ đáp ứng được khả năng huấn luyện mà chưa phản ảnh được mối liên hệ về mặt ngữ nghĩa của các từ
- Việc vector hoá các văn bản là để máy tính có thể xử lý được
- Độ tương đồng của hai vector chính là tích vô hướng vừa nó
- Xử lý ngôn ngữ tự nhiên chính là một công cụ nghĩ
- Code chạy trên Linux hoặc WSL
- Collection là những sản phẩm đầu ra, bao gồm các mô hình chủ đề và minh hoạ tương tác có thể dùng trực tiếp
- Diễn giải mô hình WhatEvery1Says
- Về mặt toán học thì AI không có gì thú vị. Việc thay đổi trọng số thú vị hơn
- Khi các xác suất độc lập với nhau thì dùng phép nhân
- Phương sai là để biết mức độ phân tán của dữ liệu so với giá trị trung bình
- Nếu xem ma trận giống như dãy số thì cũng giống như xem sách giống như dãy chữ
- Phép cộng và phép nhân thể hiện sức mạnh của dữ liệu. Phép trừ và phép chia thể hiện tương quan dữ liệu
- Python và R
- ❓Không dùng vật thể mà chỉ dùng khối