Tuỳ vào phương thức mã hoá mà mỗi ký tự Unicode sẽ được biểu diễn bởi 1 4 đơn vị mã, 1 2 đơn vị mã, hoặc chỉ một đơn vị mã duy nhất

Phương thức mã hoá Số đơn vị mã (code unit) cần để biểu diễn một ký tự bất kỳ Số byte cần cho một đơn vị mã
UTF-8 1-4 1
UTF-16 1-2 2
UTF-32 1 3

Nguồn:: Tìm hiểu Unicode
Ví dụ, chữ à có 2 điểm mã:

  • U+0061 cho chữ a
  • U+0300 cho dấu huyền

Có thể kiểm tra điều này bằng lệnh

"à".length //kết quả là 2 😲

Tuy nhiên, a cũng có thể có 1 điểm mã là U+00E0.
UTF là cách thức để chuyển đổi từ điểm mã sang hệ nhị phân. Mỗi điểm mã được biểu diễn dưới dạng U+XXYYYY

Đây cũng là lý do mà JSON bắt phải đóng ngoặc kép tất cả các thuộc tính, để khỏi phải quan tâm xem “ký tự” là gì