UTF-8
UTF-8是UNICODE的一种变长字符编码,由Ken Thompson于1992年创建。现在已经标准化为RFC 3629。UTF-8用1到6个字节编码UNICODE字符。用在网页上可以同一页面显示中文简体、繁体及其它语言(如日文,韩文)
Unicode |
UTF-8 |
0000 0000 - 0000 007F |
0XXX XXXX |
0000 0080 - 0000 07FF |
110X XXXX; 10XX XXXX |
0000 0800 - 0000 FFFF |
1110 XXXX; 10XX XXXX; 10XX XXXX |
0001 0000 - 001F FFFF |
1111 0XXX; 10XX XXXX; 10XX XXXX; 10XX XXXX |
0020 0000 - 03FF FFFF(已废弃) |
1111 10XX; 10XX XXXX; 10XX XXXX; 10XX XXXX; 10XX XXXX |
0400 0000 - 7FFF FFFF(已废弃) |
1111 110X; 10XX XXXX; 10XX XXXX; 10XX XXXX; 10XX XXXX; 10XX XXXX |
参考:UTF-16