字符编码集的历史
ASCII码
- 使用7个bits就可以完全表示ASCII码
- 包含95个可打印字符
- 33个不可打印字符(包括控制字符)
33 + 95 = 128 = 2^7
很多应用或国家中的符号都无法表示
如:数学字符
Extended ASCII码
- 常见数***算符
- 带音标的欧洲字符
- 其他常用符,表格符
字符编码集的国际化
- 欧洲,中亚,东亚,拉丁美洲国家的语言多样性
- 语言体系不一样,不以有限字符组合的语言
- 中国,韩国,日本等国家语言复杂
中文编码集
- GB2312
《信息交换用汉字编码字符集——基本集》
一共收集了7445个字符
包括6763个汉字和682个其他符号
- GBK
《汉字内码扩展规范》
向下兼容GB2312,向上支持国际ISO标准
收录了21003个汉字,支持全部中日韩汉字
- Unicode
统一码,万国码,单一码
定义了世界通用的符号集,UTF-*实现编码
UTF-8以字节为单位对Unicode进行编码
Windows系统默认使用GBK编码
编程推荐使用UTF-8编码