1、字符编码的发展历程
①、ASCII 码
String str = new String("Aa"); byte[] strASCII = str.getBytes("ASCII"); System.out.println(Arrays.toString(strASCII));//[65, 97]
②、GB2312 码
随着计算机在全球的普及,很多国家和地区都把自己的字符引入了计算机,比如汉字。此时发现一个字节能表示的数字范围太小,不能包含所有的中文汉字。那么就规定使用两个字节来表示一个汉字。
规定:原有的 ASCII 字符的编码保持不变,仍然使用一个字节表示,为了区别一个中文字符与两个 ASCII 码字符相区别。中文字符的每个字节最高位规定为 1(即中文的二进制是负数),这便是 GB2312 编码
String str = new String("Aa帅锅"); byte[] strASCII = str.getBytes("GB2312"); System.out.println(Arrays.toString(strASCII));//[65, 97, -53, -89, -71, -8]
③、GBK
由于中国汉字太多,在 GB2312 的基础上增加了更多的中文字符,这种编码是 GBK
问题:如果只是在中国,那么大家都认识汉字,但是如果是别的国家,而该国家的码表中是没有收录汉字的。那么计算机在显示的时候就为乱码或是别的字符
解决办法:为了解决各个国家因为本地化字符编码带来的影响,就把全世界所有的字符统一进行编码---Unicode 编码
此时某一个字符在全世界任何地方显示都是固定的,比如汉字 哥,在任何地方都是以十六进制 54E5 来表示。
Unicode 的字符编码都占有两个字节
④、UTF-8
是一种针对 Unicode 的可变长度字符编码,又称为 万国码,是 Unicode 的实现方式之一。编码中的第一个字节仍与 ASCII 兼容,这使得原来处理 ASCII 字符的软件无须或只需做少部分修改,即可继续使用。因此,它逐渐成为电子邮件、网页及其他存储或传送文字的应用中,优先采用的编码。互联网工程工作小组(IETF)要求所有互联网协议都必须支持 UTF-8 编码
String str = new String("Aa帅锅"); byte[] strASCII = str.getBytes("UTF-8"); System.out.println(Arrays.toString(strASCII));//[65, 97, -27, -72, -123, -23, -108, -123]
其它都是使用2个字节表示字符。
为了统一,国际标准化组织 ISO,制定unicode用2个字节来统一全世界所有字符。
美国人不同意,因为unicode是2个字节,相比他之前的ascii的1个字节,增加了1倍的储存空间。于是国际标准化组织提出了一种方案,用UTF-8对unicode进行压缩,由2个字节压缩为1个字节。中文转换以后 3 个字节(中文比较特殊,压缩后反而占内存变3个字节,占空间增大),UTF-8 转换过程中会最终生成的是 1-6 个字节不等的数据
unicode码是字符串类型,只存在内存中,传输(网络)或者存储(硬盘)必须进行编码,如UTF-8 / UTF-16 / UTF-32 / GBK / GB2312(字节,是二进制数据)
存储字母、数字:无论什么字符集都占有 1 个字节
存储汉字:GBK 家族占有 2 个字节。UTF-8 占有 3 个字节
不能使用单字节的字符集(ASCII/ISO-8859-1)来存储中文
2、字符的编码和解码
信息在计算机网络中传输是以字节的形式。那么如何变为字节?这就是编码的过程。那么计算机接收了这个编码,如何让使用者认识呢?那必须要将字节转换为人所识别的字符串形式,这就是解码的过程。
编码:将字符串转换为 byte 数组
解码:把 byte 数组转换为 字符串
注意:①、编码格式和解码格式必须一致,否则乱码
String str = new String("Aa帅锅"); //编码操作 byte[] strByte = str.getBytes("GBK"); System.out.println(Arrays.toString(strByte));//[65, 97, -53, -89, -71, -8] //解码操作 //注意编码的字符集和解码的字符集格式必须一致(是其扩展字符集也可以),否则会乱码 //第一种:编码格式为 GBK,解码格式为 ISO-8859-1 那么就会乱码 String str2 = new String(strByte,"ISO-8859-1"); System.out.println(str2); //Aa?§?? //第二种:编码和解码格式一致 String str3 = new String(strByte,"GBK"); System.out.println(str3); //Aa帅锅
②、有时候编码为和解码格式一致了,但是还是乱码,这是因为在数据在传输过程中经过服务器的处理,而这个服务器可能是外国人编写的,那么就会将数据转换为 别的字符格式,那么你如果还是直接转为自己想要的格式是会乱码的。
解决办法:先获取经过服务器之后的数据还原编码,然后在进行解码
String str = new String("Aa帅锅"); //编码操作 byte[] strByte = str.getBytes("UTF-8"); System.out.println(Arrays.toString(strByte));//[65, 97, -27, -72, -123, -23, -108, -123] //中间经过了服务器的传输,编码格式转成了 ISO-8859-1 String str2 = new String(strByte,"ISO-8859-1"); //解码操作 ,此时如果直接进行解码,那么会乱码 String str3 = new String(str2.getBytes(),"UTF-8"); System.out.println(str3); //Aa??????? //对于上面的乱码,我们必须先还原服务器之前的编码格式,然后在进行解码。那么就不会乱码 byte[] strByte2 = str2.getBytes("ISO-8859-1"); String str4 = new String(strByte2,"UTF-8"); System.out.println(str4); //Aa帅锅