⚒️Nhu cầu công việc
-
-:
-
Dịch thuật ngữ:
- Chưa rõ lý do vì sao lại dịch object ra thành đối tượng chứ không phải vật thể
- Dịch thuật ngữ
- Server nên được dịch là máy phục vụ hơn là máy chủ
- [[⚒️Nhu cầu công việc/Dịch thuật ngữ/
core
,kernel
,engine
.md|core
,kernel
,engine
]]
-
Ghi chú (Obsidian):
- Dataview
- this liệt kê tất cả những dữ liệu mà Dataview đọc được
- Chỉnh link distance nhỏ nhất và link force lớn nhất để thấy rõ từng cụm nút
- Hộp cát của Lithou tốt hơn hộp cát chính thức của Obsidian
- Mẹo dùng Git với Obsidian
- Nên dùng H1 hoặc YAML title làm tiêu đề hơn là filename
- Winmerge
- Obsidian dùng ES5
- Obsidian dùng CodeMirror
- Obsidian Typings
- Ưu tiên dùng API của Obsidian hơn là của Node
-
Phân loại dữ liệu (Trấn Kỳ):
- 1.1 Cài đặt PowerShell, Deno, Python, Git, VS Code
- 1.2 Lấy code
- 1.3 Tải code
- 2. Thiết lập chương trình
- Sử dụng main.ts
- Sử dụng tranky.py
- Thiết lập trên Fibery
- 3.1 Mô hình xử lý dữ liệu
- Chiều, từ và nhãn
- Ý nghĩa của biểu thức regex trong hàm lọcDữLiệuCầnTựĐộngNhậnDạng()
- Ý nghĩa của biểu thức regex trong hàm lọcSốTiền()
- Chạy chương trình định kỳ
- Sử dụng Docker
- Hướng dẫn debug
- Hướng dẫn sử dụng Trấn Kỳ
-
Phân tích dữ liệu:
- Numpy và Pandas
- Cách để LLM không bị ảo giác là kêu nó viết query cho Wikidata
- Nhận diện sai
- Python và R
- Hệ mã đối xứng dùng chung khoá cho cả lúc mã hoá và giải mã. Hệ mã bất đối xứng có khoá để mã hoá và giải mã khác nhau
- Nếu xem ma trận giống như dãy số thì cũng giống như xem sách giống như dãy chữ
- Phép cộng và phép nhân thể hiện sức mạnh của dữ liệu. Phép trừ và phép chia thể hiện tương quan dữ liệu
- Việc xử lý toán cho việc xử lý đồ hoạ, cơ học chất lỏng, và AI là khá giống nhau
- Khi các xác suất độc lập với nhau thì dùng phép nhân
- A p value is not how likely you think the alternative hypothesis is to be true. It’s how likely you think the result would have been if it were false
- Phương sai được chuộng dùng hơn độ lệch chuẩn vì nó dễ tính hơn
- Phương sai, độ lệch chuẩn là để biết mức độ phân tán của dữ liệu so với giá trị trung bình
- Độ lệch chuẩn có chữ chuẩn trong tên vì nó dùng đúng đơn vị đo. Phương sai có nghĩa là độ lệch được bình phương.
- Phân tích dữ liệu
- Concept map, knowledge graph
- The Semantic Web is essentially a distributed-objects framework
- Thế mạnh của RDF triplestore là tạo ra những liên kết mới không có sẵn lúc nhập vào
- Feature Extraction, Text Representation, Text Extraction, Text Vectorization là những cái tên khác nhau cho cùng một thứ
- Gensim tập trung vào mô hình chủ đề
- Các công cụ lắng nghe xã hội có sẵn giống như một ảnh chụp màn hình nhanh về những gì đang diễn ra
- Không giám sát nghĩa là giả định rằng người huấn luyện không có giả định nào
- Mô hình bản chất là một phép biến đổi không gian vector
- Bản chất của mô hình chủ đề là tô màu cho văn bản và từ
- Mô hình chủ đề rất hữu dụng cho việc diễn giải
- SVD ban đầu là để tìm ra một phép xoay không gian mà vẫn giữ nguyên tích vô hướng của các vector
- tf-idf mạnh hơn count vector
- tf-idf giúp xác định độ quan trọng của một từ trong một văn bản trong bộ văn bản
- Phân tích xu hướng, NLP
- Tổng quan về mô hình chủ đề
- Tổng quan về xử lý tiếng Việt
- Mô hình trích chọn từ
- Bộ từ trong dictionary sẽ quyết định bộ vector
- Túi từ không phân biệt được những câu có cùng các từ bởi nó không phân biệt thứ tự trước sau của các từ trong một câu
- Việc biểu diễn các từ dưới dạng các vector one-hot chỉ đáp ứng được khả năng huấn luyện mà chưa phản ảnh được mối liên hệ về mặt ngữ nghĩa của các từ
- Việc vector hoá các văn bản là để máy tính có thể xử lý được
- Độ tương đồng của hai vector chính là tích vô hướng vừa nó
- Về mặt toán học thì AI không có gì thú vị. Việc thay đổi trọng số thú vị hơn
- Xử lý ngôn ngữ tự nhiên chính là một công cụ nghĩ
- Code chạy trên Linux hoặc WSL
- Collection là những sản phẩm đầu ra, bao gồm các mô hình chủ đề và minh hoạ tương tác có thể dùng trực tiếp
- Diễn giải mô hình WhatEvery1Says
-
Sắp chữ, thiết kế:
- CSL và bib là các định dạng lưu trữ trích dẫn khác nhau
- Juris-M dựa trên Zotero và tập trung hơn vào việc đa ngôn ngữ và cho ngành luật
- MathJax
- Sắp chữ
- LaTeX aims to separate the user from having to make decisions about typography and layout, ConTeXt aims to provide an easy interface to advanced typography features.
- LaTeX đối với TeX cũng giống như jQuery đối với JavaScript
- Macro dùng để viết tắt
- TeX dùng cho máy in. LaTeX dùng cho tác giả
- TeX là ngôn ngữ hoàn chỉnh. LaTeX là ngôn ngữ cho lĩnh vực chuyên biệt
- TeX là ngôn ngữ lập trình cho việc sắp chữ. LaTeX là các macro để việc định dạng được thân thiện hơn
- Biber và BibTeX là các động cơ để đọc tệp bib
- BiBTeX khó làm việc với unicode
- Gói biblatex giúp Biber có thể hiểu được các lệnh của BibTeX
- Tệp bib thường hay được gọi là tệp bibtex, nhưng đó là cái tên cũ được thừa hưởng từ động cơ BibTex, và bây giờ nên được nhìn nhận là không còn liên quan gì đến nhau cả
- TeX
- pdfTeX, pdfLaTeX không hỗ trợ unicode tốt bằng LuaTex, LuaLaTex, XeTex, XeLaTex
- TeX là động cơ gốc và chỉ xuất được DVI. pdfTeX, XeTeX, LuaTeX là các động cơ cải tiến từ TeX và xuất được PDF
- WYSIWYM cho phép ta chỉ tập trung vào việc viết nội dung, nhưng đồng thời lại đảm bảo rằng ta sẽ không gặp những lỗi về hình thức mà không biết sửa thế nào
- Tạo bản đồ
- Cài PangoCairo trước khi dùng unicode trong Graphviz
-
Tiếp thị số:
- Kinh nghiệm SEO
- Nếu không thể làm web nhanh hơn, hãy làm thao tác cuối cùng của người dùng trên web nhanh hơn
- Dự án là sản phẩm
- Chiến dịch là sản phẩm
- Client-side tracking thiếu chính xác
- Chỉ cần dùng một measurement ID cho các subdomain
- Nếu web có ít người sử dụng thì một số dữ liệu sẽ bị giấu đi để đảm bảo tính riêng tư cho người dùng
- Google Analytics
- Google Analytics dùng cookie để theo dõi hoạt động
- Các organic branded traffic nên được xem như là direct traffic
- GA xem zalo, wordpress, stackexchange là social
- Các URL dài có thể là organic traffic chứ không phải direct traffic
- Nếu medium không có gì đặc biệt thì cứ để trống để google tự phân loại
- Referral channel group bao gồm organic social trong đó
- Social về bản chất là referral, nhưng được tách ra để phân tích sâu hơn
- Có thể có tới 40% người dùng dùng adblock. Số độc giả rành công nghệ có thể lên tới 58%
- Có những người mình mong họ like nhưng họ lại không phải là người mình cần
- Có vẻ như để bài viết dưới dạng link hay dạng ảnh thì Facebook cũng đều phân phối như nhau
- Quảng cáo trên Facebook
- Seeding
- Share bài từ page thì thấy được số tương tác trên Facebook
- subdomain m, l, lm
- Tất cả like, share từ các phiên bản URL khác nhau sẽ được đổ hết về og-url
- Để biết được bài đăng của mình tiếp cận được bao nhiêu người, vào Business Suite
- ❓Vai trò của các chỉ số trên Facebook trong phân tích web
- App điện thoại có thể trở thành data stream, nhưng không thể trở thành destination
- Các dữ liệu cần xử lý chung một chỗ cần được đổ về cùng một property
- Các tag có thể thêm vào
- Container
- Data layer cho phép thay đổi URL mà không làm GA nghĩ rằng mình đã đổi sang trang khác
- Data layer tập trung mọi dữ liệu lại vào một chỗ rồi truyền đến container
- Google Tag Manager là một trình quản lý các mã JavaScript được gắn vào web
- Workspace
- Để kích hoạt một tag trước tất cả các tag khác, chọn ❝Initialization – All Pages❞
- Destination ID cho GA trùng với Measurement ID của web data stream
- Destination là nơi nhận dữ liệu của Google tag
- Một Google tag có thể có nhiều ID
- Google tag đổ dữ liệu về Google Analytics, không phải Google Tag Manager
- Một tag có thể có nhiều destination, nhưng một destination chỉ thuộc về một tag
- Google tag, global site tag, gtag là những cái tên khác nhau cho đoạn script theo dõi người dùng của Google Analytics
- Nên cài Google tag trong Google Tag Manager thay vì cài trực tiếp trên web hoặc qua plugin
- A client is a Tag Manager resource type that intercepts certain types of incoming HTTP requests and generates events that are passed to a destination, like Google Analytics 4
- Only one client can claim an incoming request, but there can be multiple clients trying to claim the same request
- ❓Measurement ID của web data stream chính là Google tag ID
- Google Search Console chỉ lưu dữ liệu trong 16 tháng
- Google Search Console dùng để biết thiên hạ đang google web mình thế nào
- Link referrer không hiện đầy đủ mà chỉ có tên miền vì URL có thể chứa thông tin cá nhân
- Google Marketing Platform
- Screaming Frog giúp phân tích một trang web
- Web analytics đã thay đổi trong nhiều năm qua
- Rút gọn liên kết (đối ⊷ thoại)
- Xác định bài đăng giống nhau
- readme
- Tiếp thị số
- Aira
- Có sự xung đột giữa logical document structure, compelling visual layout, và intuitive interaction trong việc thiết kế bao trùm
- Các template engine và processor sẽ mặc định tìm tệp trong thư mục _includes
- Dùng extra_head để thêm HTML chứ không chèn trực tiếp vào markdown
- Theme thực chất là plugin có remote
- Lume
- Tất cả các thư mục bắt đầu bằng _ hoặc . mặc định đều bị bỏ ra
- Tất cả mọi thứ đều phải ở trong src. Tất cả các đường dẫn đều bắt đầu từ src
- main.html là template
- Bất cứ một tệp nào trong overrides sẽ thay thế tệp ở theme gốc
- main.html mở rộng base.html
- Nếu không thường xuyên cập nhật thì lại dễ bị dính mã độc
- Nội dung của một website WordPress được lưu trữ trong cơ sở dữ liệu dạng bảng
- Nếu plugin có lỗi bảo mật thì không cần biết mật khẩu vẫn cài mã độc được
- Nội dung trong cơ sở dữ liệu được PHP hiển thị thành HTML
- PHP là một ngôn ngữ lập trình cho web
- phpMyAdmin là GUI để dùng MySQL trên web
- WordPress viết trên nền PHP
- WordPress là một hệ thống quản lý nội dung
- WordPress.org là phần mềm mã nguồn mở. WordPress.com là dịch vụ hosting
- Web tĩnh
- Muốn trang nào làm trang chủ thì để tên là index.html
- JSON-LD là một cách để tạo schema
- Open Graph chuyên cho việc chia sẻ trên mạng xã hội. Schema chuyên cho việc tìm kiếm trên Google
- Open Graph và Schema.org là từ vựng. JSON-LD, RDFa và Microdata là ngữ pháp
- Gần như mọi lệnh đều là async, vì nó phải giao tiếp với trình duyệt
- locator chỉ xác định chiến lược để tìm đến element chứ không đi tìm ngay
- locator không cần tới await vì nó chỉ báo là mình sẽ chọn element nào, chứ chưa thực sự chọn nó. Khi nào có hành động cụ thể thì mới thực sự chọn
- Playwright chuyên cho việc kiểm thử và do Microsoft viết. Puppeteer do Google viết
- Puppeteer
- Remote Control được sinh ra để giải quyết vấn đề Same-Origin Policy
- Selenium bao gồm IDE, Remote Control, WebDriver và Grid. Selenium 1 thực ra là Remote Control. Selenium 2 thực ra là Remote Control có thêm WebDriver
- Thử kiếm backend API trước rồi mới phải đi cào bằng frontend
- Tự động hoá trình duyệt