Tuỳ vào phương thức mã hoá mà mỗi ký tự Unicode sẽ được biểu diễn bởi 1 4 đơn vị mã, 1 2 đơn vị mã, hoặc chỉ một đơn vị mã duy nhất
Phương thức mã hoá | Số đơn vị mã (code unit) cần để biểu diễn một ký tự bất kỳ | Số byte cần cho một đơn vị mã |
---|---|---|
UTF-8 | 1-4 | 1 |
UTF-16 | 1-2 | 2 |
UTF-32 | 1 | 3 |
Nguồn:: Tìm hiểu Unicode
Ví dụ, chữ à
có 2 code point:
U+0061
cho chữa
U+0300
cho dấu huyền
Có thể kiểm tra điều này bằng lệnh
Tuy nhiên,
a
cũng có thể có 1 code point là U+00E0
.UTF là cách thức để chuyển đổi từ điểm mã sang hệ nhị phân
Đây cũng là lý do mà JSON bắt phải đóng ngoặc kép tất cả các key