字符编码_牛客博客

       计算机只认识二进制，那么计算机是怎么表示现实世界当中的文字的呢？
*八种基本数据类型当中，byte、short、int、long、float、double、boolean这7种数据类型计算机在表示的时候比较容易，因为底层都是数字，十进制的数字和二进制之间存在一种固定的转换规则
*但是八种基本数据类型当中char类型表示的是现在中的文字，文章和计算机二进制之间“默认”情况下是不存在任何转换关系的
*为了让计算机可以表示现实世界当中的文字，我们需要进行人为的干涉，需要人负责提前制定好“文字”和“二进制”之间的对照关系，这种对照转换关系被称为：字符编码
*计算机最初只支持英文，最先出现的字符编码是：ASCII码
    'a'--> 97【01100001】
    'A'--> 65
    '0'--> 48

    'a'--(按照ASCII解码)--> 01100001
    01100001 ---按照ASCII编码-->'a'

    编码和解码的时候采用同一套字典/对照表，不会出现乱码
    当解码和编码的时候采用的不是同一套对照表，会出现乱码问题

*随着计算机的发展，后来出现了一种编码方式，是国际化标准组织ISO制定的，这种编码方式支持西欧语言，向上兼容ASCII码，仍不支持中文，这种编码方式是：ISO-8859-1，又被称为：latin-1
*随着计算机向亚洲发展，计算机开始支持中文、日语、韩语等国家文字，其中支持简体中文的编码方式：
    GB2312 < GBK < GB18030

*支持繁体中文：大五码（big5）

*后来出现了一种编码方式统一了全球所有的文字，容量较大，这种编码方式叫做：unicode编码，unicode编码方式有多种具体的实现：
- UTF-8