您现在的位置是:网站首页 > 分类 > 文章详情

编码的发展史

T2018年12月2日 11:17123人围观
简介1967年,出现了ASCII,用256个字符代表所有的英文、数字、以及其他特殊符号

1、1967年,出现了ASCII,用256个字符代表所有的英文、数字、以及其他特殊符号
2、1981年,由于ASCII更本不支持中文,国人就搞了一套汉字的编码,就是GB2312,支持常用的简体汉字
3、1995年,出现了GB1.0,扩展了GB2312,能支持2万多汉字
4、2000年,出现了GB18030,支持2.7万多汉字
5、当然,在这之中,韩国、日本等国家也出现了他们自己的编码... 6、由于每个国家编码不统一,ISO标准诞生了,它统一了各国编码,叫做Unicode
7、由于Unicode用2个bit代表一个英文,英文国家觉得太浪费空间了。再后来又对Unicode编码进行了优化,它就是UTF-8,它用1个bit代表一个英文,3bit代表一个汉字,所以用UTF8会比GBK占容量大
8、目前而言,我们中文版的windows都是默认用GBK的,可能是ZF觉得是我们自己搞的比较安全;而MAC/Linux系统默认编码是UTF-8
--------------------------华丽丽的分割线--------------------------
编码的发展基本就上述了,那么编码之间是如何转换的呢?
1、最常用的就是十六、十、二进制(当然还有一个八进制,不怎么用了)
2、汉字通过编码表,先转换成十进制(就是我们平常说的阿拉伯数字),十进制再转换成二进制(所以放到硬盘的文件都是以二进制存进去的,只不过可能通过不同的编码方式解析后存入)
3、那么十六进制(以为OX开头表示)到底是用来干嘛的,说简单点就是为了表示更加简洁,不然你传输过程中直接展示01,没有任何可读性
--------------------------华丽丽的分割线--------------------------
最后,说到python2其实默认是用ASCII,所以没法解析中文的,一般我们写代码时候都在文件前面加上一个encodeing;但是ptyhon3默认就用了UTF8,不需要解析了

文章评论

阿里云-云大使推广
阿里云-云服务器推广

微信公众号