老生常谈Python基础之字符编码

2020-02-16 01:42:04

字体：大中小

来源：转载

供稿：网友

前言

字符编码非常容易出问题，我们要牢记几句话：

1.用什么编码保存的，就要用什么编码打开

2.程序的执行，是先将文件读入内存中

3.unicode是父编码，只能encode解码成其他编码格式

utf-8，GBK这些是子8编码，只能decode编码成Unicode

一、什么是字符编码

我们知道，计算机只能识别二进制，我们平时写的代码都需要转成二进制才能被计算机识别。所以，我们写的字符怎么转换成二进制呢，这个过程实际就是通过一个标准使我们写的字符与特定数字一一对应，这个标准就称为字符编码。

字符------（字符编码）------->数字

二、字符编码发展历程

1.ASCII码

计算机起源于美国，字符编码也起源于美国。但是美国人民使用的文字只有26个字母，再加上些特殊符号就搞定了。不像我们中国，小学生就要认识几千个汉字。所以美国人民就使用了ASCII码（美国信息交换标准码）作为字符编码，一个Bytes代表一个字符，1Bytes=8bit,可以有2的8次方即256中不同的变化，但最初只用了前7位，即127个字符，已经足够美国人民使用了（当然也出于成本的考虑）。后来将拉丁文编入第8位，至此，ASCII码就被占满了，英语国家和拉丁国家可以愉快的玩耍了。

2.GBK

别看咱们中国暂时科技比不上美帝国，但是咱们有一颗积极向上的心啊，于是，在1980年，国家标准总局发布了中文使用的字符编码-->GBK，使用两个字节表示一个汉字，这样就有2的16次方即65536种组合，已经足够汉字使用了。

同时，其他国家也分别发布了自己国家的字符编码标准，如日本的shift_JIS,韩国的Euc-kr等等

3.Unicode

据说，字符编码鼎盛时期有数百种，且彼此间互相不支持，看来各国人民都很有骨气，但是这太不利于世界的互通了，于是Unicode应运而生。1994年，国际标准化组织发布了号称万国码的Unicode，用两个字节表示一个字符，有65536种组合，已经能把全世界绝大多数语言包括了。

4.utf-8

Unicode虽然好，但有一个问题，本来用一个字节就能表示的英文，现在要用两个字节，存储空间平白多出一倍，这显然是不完美的，所以又产生了utf-8，对英文字符只用1个字节，对中文字符用3个字节来表示。　

5.Unicode所有字符都是两个字节，简单粗暴，字符转换成数字的速度快，但是占用存储空间大

utf-8对不同的字符采用不用的长度表示，节省空间，但是转换效率不如Unicode快

内存中使用的字符编码是Unicode，内存就是为了加快速度的，所以宁肯牺牲一点空间，也要保证速度

硬盘和网络传输是用utf-8的，因为磁盘I/O或者网络I/O延迟要远大于utf-8的转换效率，并且在网络传输中应该尽可能节省带宽

上一篇：python生成词云的实现方法(推荐)