📊Tổ chức dữ liệu. Phân tích dữ liệu
-
Phân tích dữ liệu:
- Cách để AI không bị ảo giác là kêu nó viết query cho Wikidata
- Numpy và Pandas
- Ontology
- Phân tích dữ liệu
- Concept map, knowledge graph
- The Semantic Web is essentially a distributed-objects framework
- Thế mạnh của RDF triplestore là tạo ra những liên kết mới không có sẵn lúc nhập vào
- Các công cụ lắng nghe xã hội có sẵn giống như một ảnh chụp màn hình nhanh về những gì đang diễn ra
- Feature Extraction, Text Representation, Text Extraction, Text Vectorization là những cái tên khác nhau cho cùng một thứ
- Gensim tập trung vào mô hình chủ đề
- Không giám sát nghĩa là giả định rằng người huấn luyện không có giả định nào
- Bản chất của mô hình chủ đề là tô màu cho văn bản và từ
- Mô hình bản chất là một phép biến đổi không gian vector
- Mô hình chủ đề rất hữu dụng cho việc diễn giải
- tf-idf giúp xác định độ quan trọng của một từ trong một văn bản trong bộ văn bản
- SVD ban đầu là để tìm ra một phép xoay không gian mà vẫn giữ nguyên tích vô hướng của các vector
- tf-idf mạnh hơn count vector
- Mô hình trích chọn từ
- Phân tích xu hướng, NLP
- Tổng quan về mô hình chủ đề
- Tổng quan về xử lý tiếng Việt
- Bộ từ trong dictionary sẽ quyết định bộ vector
- Túi từ không phân biệt được những câu có cùng các từ bởi nó không phân biệt thứ tự trước sau của các từ trong một câu
- Việc biểu diễn các từ dưới dạng các vector one-hot chỉ đáp ứng được khả năng huấn luyện mà chưa phản ảnh được mối liên hệ về mặt ngữ nghĩa của các từ
- Việc vector hoá các văn bản là để máy tính có thể xử lý được
- Độ tương đồng của hai vector chính là tích vô hướng vừa nó
- Xử lý ngôn ngữ tự nhiên chính là một công cụ nghĩ
- Python, R
- Nếu xem ma trận giống như dãy số thì cũng giống như xem sách giống như dãy chữ
- Phép cộng và phép nhân thể hiện sức mạnh của dữ liệu. Phép trừ và phép chia thể hiện tương quan dữ liệu
- Khi các xác suất độc lập với nhau thì dùng phép nhân
- Phương sai là để biết mức độ phân tán của dữ liệu so với giá trị trung bình
- ❓Không dùng vật thể mà chỉ dùng khối
-
Tổ chức dữ liệu:
- Syncthing dành cho đồng bộ dữ liệu giữa các thiết bị của cùng một người. Git chuyên cho việc hợp tác làm việc giữa nhiều người
- Các chương trình ứng dụng không giao tiếp trực tiếp với CSDL mà qua một trung gian gọi là hệ quản trị cơ sở dữ liệu
- DBMS cấu trúc những cách ta tổ chức và tương tác với mọi dữ liệu được lưu trữ
- Dữ liệu dưới dạng cơ sở dữ liệu đảm bảo các bên tham gia nhập dữ liệu cùng một định dạng
- Excel không phù hợp cho việc lập cơ sở dữ liệu
- File Google Docs không thực sự là file
- Giao diện block cho phép người dùng linh hoạt hơn mà vẫn giữ được sự cấu trúc
- Khó có thể copy dữ liệu dạng block giữa các app khác nhau
- Mở rộng quy mô bằng việc nâng cấp RAM, CPU dễ hơn với SQL. Mở rộng quy mô bằng việc chạy cùng lúc nhiều máy dễ hơn với NoSQL
- Việc phân loại SQL và NoSQL giống như việc phân loại người dị tính hợp giới và người không dị tính hợp giới, hoặc phân loại người Kinh và người không Kinh
- Ứng dụng quản lý là một dạng giao diện giữa người dùng và cơ sở dữ liệu
- Dữ liệu dưới dạng văn bản phù hợp cho việc quản lý kiến thức
- Khi merge, ours là branch hiện tại. Khi rebase, theirs là branch hiện tại
- Khi viết tính năng mới nên tạo branch mới
- @ là viết tắt của HEAD
- Các lệnh git thường sử dụng
- git log giúp xem lịch sử các commit
- HEAD là commit hiện tại
- ~ và dấu mũ là để chỉ các commit trước đó
- Dùng git tag -n liệt kê tất cả các tag
- Facebook chuyển sang Mercurial vì nhóm phát triển Git năm 2012 không mặn mà với monorepo
- diff does not take into account untracked files
- git diff
- git status giúp xem những file nào đã được vào stage
- ls-files chỉ làm việc với index
- pathspecs giúp chọn đường dẫn một cách linh hoạt và tinh tế hơn
- Git giúp ta du hành thời gian
- Git không biết gì về folder
- Git
- Bấm dấu . để mở VS Code web ngay trên GitHub
- pull không lấy file mới về, mà lấy commit mới về
- Template và fork
- Website GitHub giống như để remote control máy của GitHub
- Real-time collaboration isn’t necessary in most cases, but asynchronous collaboration
- git add -A làm cho index giống như ở working directory. git commit -am chỉ áp dụng cho những file đã có sẵn trong index
- Stage, cache, index là những cái tên khác nhau cho cùng một thứ
- Untracked, staged, unchanged và unstaged là 4 trạng thái chính của một file
- Thứ ta đang trực tiếp chỉnh sửa mà ta tưởng là dữ liệu của mình thực chất là thứ được vay mượn từ commit
- Việc commit giúp ta phá code mà không sợ gì, giống như có đồ bảo hộ rồi thì tha hồ nghịch điện cao thế
- Vấn đề hay gặp khi dùng Git
- Vật thể git
- Cấu trúc phân cấp thường cứng nhắc và nhân tạo
- Dữ liệu dưới dạng văn bản là dạng dữ liệu phi cấu trúc
- File là thứ mà nhiều chương trình khác nhau đều đọc được
- Sự sắp xếp thư mục khác nhau theo chức năng và theo sản phẩm
- Văn bản thuần là dạng tổ chức dữ liệu đơn giản nhất
- Đánh số phiên bản
- Việc lưu dữ liệu ở các công cụ khác nhau tạo thành các đảo thông tin
- ❓Tại sao không cho người chưa biết gì về công nghệ thông tin bắt đầu bằng việc học cơ sở dữ liệu trước thay vì học lập trình?
Cập nhật lần cuối :
2 tháng 7, 2024
Tạo : 3 tháng 11, 2023
Tạo : 3 tháng 11, 2023