Lý thuyết Unicode
-
-:
- Kể cả khi viết nội dung bằng ngôn ngữ khác thì số ký tự ASCII vẫn nhiều hơn nhiều so với số ký tự phi ASCII
- Lý thuyết Unicode
- Những số bắt đầu bằng 0x là những số hex
- Tuỳ vào phương thức mã hoá mà mỗi ký tự Unicode sẽ được biểu diễn bởi 1-4 đơn vị mã, 1-2 đơn vị mã, hoặc chỉ một đơn vị mã duy nhất
- Điểm mã liên quan đến việc con người đánh số thứ tự của ký tự thế nào. Đơn vị mã liên quan đến việc máy tính dùng phương thức nào để biết tìm ký tự đó ở đâu
- Không gian mã là không gian chứa tất cả các điểm mã của Unicode
-
Điểm mã:
- Các ký tự ASCII có 1 điểm mã
- Cách máy tính hiểu ký tự khác với cách con người hiểu ký tự. Tốt nhất là nên dùng điểm mã khi nói về ký tự máy tính
- Mỗi điểm mã được biểu diễn dưới dạng U+XXYYYY
- Unicode chia thành 17 plane, mỗi plane chứa 65,536 (= 16⁴) điểm mã
- UTF là cách thức để chuyển đổi từ điểm mã sang hệ nhị phân
- Điểm mã không phải là cách để máy tính lưu ký tự