⚒️Nhu cầu công việc
-
-:
-
Dịch thuật ngữ:
- Chưa rõ lý do vì sao lại dịch object ra thành đối tượng chứ không phải vật thể
- Dịch thuật ngữ
- Server nên được dịch là máy phục vụ hơn là máy chủ
- [[⚒️Nhu cầu công việc/Dịch thuật ngữ/
core,kernel,engine.md|core,kernel,engine]]
-
Phân loại dữ liệu (Trấn Kỳ):
- 1.1 Cài đặt PowerShell, Deno, Python, Git, VS Code
- 1.2 Lấy code
- 1.3 Tải code
- 2. Thiết lập chương trình
- Sử dụng main.ts
- Sử dụng tranky.py
- Thiết lập trên Fibery
- 3.1 Mô hình xử lý dữ liệu
- Chiều, từ và nhãn
- Ý nghĩa của biểu thức regex trong hàm lọcDữLiệuCầnTựĐộngNhậnDạng()
- Ý nghĩa của biểu thức regex trong hàm lọcSốTiền()
- Chạy chương trình định kỳ
- Hướng dẫn debug
- Sử dụng Docker
- Hướng dẫn sử dụng Trấn Kỳ
-
Phân tích dữ liệu:
- Cách để LLM không bị ảo giác là kêu nó viết query cho Wikidata
- Nhận diện sai
- Numpy và Pandas
- Phân tích dữ liệu
- Các công cụ lắng nghe xã hội có sẵn giống như một ảnh chụp màn hình nhanh về những gì đang diễn ra
- Feature Extraction, Text Representation, Text Extraction, Text Vectorization là những cái tên khác nhau cho cùng một thứ
- Gensim tập trung vào mô hình chủ đề
- Không giám sát nghĩa là giả định rằng người huấn luyện không có giả định nào
- Bản chất của mô hình chủ đề là tô màu cho văn bản và từ
- Mô hình bản chất là một phép biến đổi không gian vector
- Mô hình chủ đề rất hữu dụng cho việc diễn giải
- SVD ban đầu là để tìm ra một phép xoay không gian mà vẫn giữ nguyên tích vô hướng của các vector
- tf-idf giúp xác định độ quan trọng của một từ trong một văn bản trong bộ văn bản
- tf-idf mạnh hơn count vector
- Mô hình trích chọn từ
- Phân tích xu hướng, NLP
- Tổng quan về mô hình chủ đề
- Tổng quan về xử lý tiếng Việt
- Bộ từ trong dictionary sẽ quyết định bộ vector
- Túi từ không phân biệt được những câu có cùng các từ bởi nó không phân biệt thứ tự trước sau của các từ trong một câu
- Việc biểu diễn các từ dưới dạng các vector one-hot chỉ đáp ứng được khả năng huấn luyện mà chưa phản ảnh được mối liên hệ về mặt ngữ nghĩa của các từ
- Việc vector hoá các văn bản là để máy tính có thể xử lý được
- Độ tương đồng của hai vector chính là tích vô hướng vừa nó
- Về mặt toán học thì AI không có gì thú vị. Việc thay đổi trọng số thú vị hơn
- Code chạy trên Linux hoặc WSL
- Collection là những sản phẩm đầu ra, bao gồm các mô hình chủ đề và minh hoạ tương tác có thể dùng trực tiếp
- Diễn giải mô hình WhatEvery1Says
- Xử lý ngôn ngữ tự nhiên chính là một công cụ nghĩ
- Python và R
-
Quản lý kiến thức:
- Chạy trên Node 22
- Chỉ cho chạy tối đa 1 giây
- Cung cấp 2 biến args và context
- Dùng fibery-script-management để viết được trên IDE của mình
- When you get an entity object, by default, only the primitive fields and any to-one relations are included in the fields returned. If you want to get the collection fields (to-many relations) you have to query specifically for them.
- Collection
- GraphiQL
- Ký tự phi ASCII trong tên field hoặc database sẽ được transliterate sang tiếng Anh khi dùng GraphQL API
- Type với database là một. App với space là một
- Chỉnh link distance nhỏ nhất và link force lớn nhất để thấy rõ từng cụm nút
- Config cho quản trị viên
- Dataview
- this liệt kê tất cả những dữ liệu mà Dataview đọc được
- Do Node không dùng được trên điện thoại, nên khi viết plugin thì ưu tiên dùng API của Obsidian hơn là của Node
- Hộp cát của Lithou tốt hơn hộp cát chính thức của Obsidian
- Không dùng thẻ style được vì nó đi ngược lại quy định của HTML
- Mẹo dùng Git với Obsidian
- Nên dùng H1 hoặc YAML title làm tiêu đề hơn là filename
- Obsidian dùng CodeMirror
- Obsidian dùng ES5
- Obsidian Typings
- Template tạo vault và website mới
- Ưu tiên dùng API của Obsidian hơn là của Node
-
Sắp chữ, thiết kế:
- MathJax
- CSL và bib là các định dạng lưu trữ trích dẫn khác nhau
- Juris-M dựa trên Zotero và tập trung hơn vào việc đa ngôn ngữ và cho ngành luật
- Sắp chữ
- WYSIWYM cho phép ta chỉ tập trung vào việc viết nội dung, nhưng đồng thời lại đảm bảo rằng ta sẽ không gặp những lỗi về hình thức mà không biết sửa thế nào
- LaTeX aims to separate the user from having to make decisions about typography and layout, ConTeXt aims to provide an easy interface to advanced typography features.
- LaTeX đối với TeX cũng giống như jQuery đối với JavaScript
- Macro dùng để viết tắt
- TeX dùng cho máy in. LaTeX dùng cho tác giả
- TeX là ngôn ngữ hoàn chỉnh. LaTeX là ngôn ngữ cho lĩnh vực chuyên biệt
- TeX là ngôn ngữ lập trình cho việc sắp chữ. LaTeX là các macro để việc định dạng được thân thiện hơn
- Biber và BibTeX là các động cơ để đọc tệp bib
- BiBTeX khó làm việc với unicode
- Gói biblatex giúp Biber có thể hiểu được các lệnh của BibTeX
- Tệp bib thường hay được gọi là tệp bibtex, nhưng đó là cái tên cũ được thừa hưởng từ động cơ BibTex, và bây giờ nên được nhìn nhận là không còn liên quan gì đến nhau cả
- TeX
- pdfTeX, pdfLaTeX không hỗ trợ unicode tốt bằng LuaTex, LuaLaTex, XeTex, XeLaTex
- TeX là động cơ gốc và chỉ xuất được DVI. pdfTeX, XeTeX, LuaTeX là các động cơ cải tiến từ TeX và xuất được PDF
- Tạo bản đồ
- Cài PangoCairo trước khi dùng unicode trong Graphviz
-
Tiếp thị số:
- Nếu không thể làm web nhanh hơn, hãy làm thao tác cuối cùng của người dùng trên web nhanh hơn
- Kinh nghiệm SEO
- Các API thường dùng cho PHP
- Facebook API
- Fb hạn chế rất nhiều API để tránh việc làm nhái page
- me-accounts liệt kê tất cả các page mình quản lý
- Pfbid
- Có những người mình mong họ like nhưng họ lại không phải là người mình cần
- Có vẻ như để bài viết dưới dạng link hay dạng ảnh thì Facebook cũng đều phân phối như nhau
- Quảng cáo trên Facebook
- Seeding
- Share bài từ page thì thấy được số tương tác trên Facebook
- subdomain m, l, lm
- Tất cả like, share từ các phiên bản URL khác nhau sẽ được đổ hết về og-url
- Để biết được bài đăng của mình tiếp cận được bao nhiêu người, vào Business Suite
- ❓Vai trò của các chỉ số trên Facebook trong phân tích web
- Chiến dịch là sản phẩm
- Client-side tracking thiếu chính xác
- Có thể có tới 40% người dùng dùng adblock. Số độc giả rành công nghệ có thể lên tới 58%
- Dự án là sản phẩm
- Chỉ cần dùng một measurement ID cho các subdomain
- Google Analytics dùng cookie để theo dõi hoạt động
- Google Analytics
- Nếu web có ít người sử dụng thì một số dữ liệu sẽ bị giấu đi để đảm bảo tính riêng tư cho người dùng
- Các organic branded traffic nên được xem như là direct traffic
- Các URL dài có thể là organic traffic chứ không phải direct traffic
- GA xem zalo, wordpress, stackexchange là social
- Nếu medium không có gì đặc biệt thì cứ để trống để google tự phân loại
- Referral channel group bao gồm organic social trong đó
- Social về bản chất là referral, nhưng được tách ra để phân tích sâu hơn
- Google Marketing Platform
- Google Search Console chỉ lưu dữ liệu trong 16 tháng
- Google Search Console dùng để biết thiên hạ đang google web mình thế nào
- App điện thoại có thể trở thành data stream, nhưng không thể trở thành destination
- Các dữ liệu cần xử lý chung một chỗ cần được đổ về cùng một property
- Các tag có thể thêm vào
- Destination ID cho GA trùng với Measurement ID của web data stream
- Destination là nơi nhận dữ liệu của Google tag
- Container
- Data layer cho phép thay đổi URL mà không làm GA nghĩ rằng mình đã đổi sang trang khác
- Data layer tập trung mọi dữ liệu lại vào một chỗ rồi truyền đến container
- Google Tag Manager là một trình quản lý các mã JavaScript được gắn vào web
- Workspace
- Để kích hoạt một tag trước tất cả các tag khác, chọn ❝Initialization – All Pages❞
- Google tag đổ dữ liệu về Google Analytics, không phải Google Tag Manager
- Google tag, global site tag, gtag là những cái tên khác nhau cho đoạn script theo dõi người dùng của Google Analytics
- Một Google tag có thể có nhiều ID
- Một tag có thể có nhiều destination, nhưng một destination chỉ thuộc về một tag
- Nên cài Google tag trong Google Tag Manager thay vì cài trực tiếp trên web hoặc qua plugin
- A client is a Tag Manager resource type that intercepts certain types of incoming HTTP requests and generates events that are passed to a destination, like Google Analytics 4
- Only one client can claim an incoming request, but there can be multiple clients trying to claim the same request
- ❓Measurement ID của web data stream chính là Google tag ID
- Link referrer không hiện đầy đủ mà chỉ có tên miền vì URL có thể chứa thông tin cá nhân
- Screaming Frog giúp phân tích một trang web
- Web analytics đã thay đổi trong nhiều năm qua
- readme
- Rút gọn liên kết (đối ⊷ thoại)
- Xác định bài đăng giống nhau
- JSON-LD là một cách để tạo schema
- Open Graph chuyên cho việc chia sẻ trên mạng xã hội. Schema chuyên cho việc tìm kiếm trên Google
- Open Graph và Schema.org là từ vựng. JSON-LD, RDFa và Microdata là ngữ pháp
- Tiếp thị số
- Aira
- Có sự xung đột giữa logical document structure, compelling visual layout, và intuitive interaction trong việc thiết kế bao trùm
- Các template engine và processor sẽ mặc định tìm tệp trong thư mục _includes
- Dùng extra_head để thêm HTML chứ không chèn trực tiếp vào markdown
- Lume
- Theme thực chất là plugin có remote
- Tất cả các thư mục bắt đầu bằng _ hoặc . mặc định đều bị bỏ ra
- Tất cả mọi thứ đều phải ở trong src. Tất cả các đường dẫn đều bắt đầu từ src
- Bất cứ một tệp nào trong overrides sẽ thay thế tệp ở theme gốc
- main.html là template
- main.html mở rộng base.html
- Muốn trang nào làm trang chủ thì để tên là index.html
- Web tĩnh
- Nếu không thường xuyên cập nhật thì lại dễ bị dính mã độc
- Nếu plugin có lỗi bảo mật thì không cần biết mật khẩu vẫn cài mã độc được
- Nội dung của một website WordPress được lưu trữ trong cơ sở dữ liệu dạng bảng
- Nội dung trong cơ sở dữ liệu được PHP hiển thị thành HTML
- PHP là một ngôn ngữ lập trình cho web
- phpMyAdmin là GUI để dùng MySQL trên web
- WordPress là một hệ thống quản lý nội dung
- WordPress viết trên nền PHP
- WordPress
- WordPress.org là phần mềm mã nguồn mở. WordPress.com là dịch vụ hosting
- Gần như mọi lệnh đều là async, vì nó phải giao tiếp với trình duyệt
- locator chỉ xác định chiến lược để tìm đến element chứ không đi tìm ngay
- locator không cần tới await vì nó chỉ báo là mình sẽ chọn element nào, chứ chưa thực sự chọn nó. Khi nào có hành động cụ thể thì mới thực sự chọn
- Playwright chuyên cho việc kiểm thử và do Microsoft viết. Puppeteer do Google viết
- Puppeteer
- Remote Control được sinh ra để giải quyết vấn đề Same-Origin Policy
- Selenium bao gồm IDE, Remote Control, WebDriver và Grid. Selenium 1 thực ra là Remote Control. Selenium 2 thực ra là Remote Control có thêm WebDriver
- Thử kiếm backend API trước rồi mới phải đi cào bằng frontend
- Tự động hoá trình duyệt