Tuỳ vào phương thức mã hoá mà mỗi ký tự Unicode sẽ được biểu diễn bởi 1 4 đơn vị mã, 1 2 đơn vị mã, hoặc chỉ một đơn vị mã duy nhất

Phương thức mã hoá Số đơn vị mã (code unit) cần để biểu diễn một ký tự bất kỳ Số byte cần cho một đơn vị mã
UTF-8 1-4 1
UTF-16 1-2 2
UTF-32 1 3

Nguồn:: Tìm hiểu Unicode
Ví dụ, chữ à có 2 code point:

  • U+0061 cho chữ a
  • U+0300 cho dấu huyền

Có thể kiểm tra điều này bằng lệnh

"à".length //kết quả là 2 😲

Tuy nhiên, a cũng có thể có 1 code point là U+00E0.
UTF là cách thức để chuyển đổi từ điểm mã sang hệ nhị phân

Đây cũng là lý do mà JSON bắt phải đóng ngoặc kép tất cả các key


Cập nhật lần cuối : 30 tháng 6, 2024
Tạo : 12 tháng 10, 2023