Tuỳ vào phương thức mã hoá mà mỗi ký tự Unicode sẽ được biểu diễn bởi 1 4 đơn vị mã, 1 2 đơn vị mã, hoặc chỉ một đơn vị mã duy nhất
Phương thức mã hoá | Số đơn vị mã (code unit) cần để biểu diễn một ký tự bất kỳ | Số byte cần cho một đơn vị mã |
---|---|---|
UTF-8 | 1-4 | 1 |
UTF-16 | 1-2 | 2 |
UTF-32 | 1 | 3 |
Nguồn:: Tìm hiểu Unicode
Ví dụ, chữ à
có 2 điểm mã:
U+0061
cho chữa
U+0300
cho dấu huyền
Có thể kiểm tra điều này bằng lệnh
Tuy nhiên,
a
cũng có thể có 1 điểm mã là U+00E0
.UTF là cách thức để chuyển đổi từ điểm mã sang hệ nhị phân. Mỗi điểm mã được biểu diễn dưới dạng U+XXYYYY
Đây cũng là lý do mà JSON bắt phải đóng ngoặc kép tất cả các thuộc tính, để khỏi phải quan tâm xem “ký tự” là gì