python2 中有关文件中文编码的处理方案

发布于2018年12月31日作者：苏南大叔来源：苏南大叔写代码~

我们相信：世界是美好的，你是我也是。平行空间的世界里面，不同版本的生活也在继续...

在说明python的中文分词库jieba的时候，苏南大叔使用的是python3执行的相关代码。那么在python2下，这个jieba的测试代码，也是可以运行的。不过，却可能会遇到两个编码有关的错误提示。本文中，苏南大叔就还是以jieba中文分词这个测试代码为例，说明python2中可能遇到的编码有关错误提示的解决方案。

苏南大叔：python2 中有关文件中文编码的处理方案 - python2-encoding — python2 中有关文件中文编码的处理方案（图3-1）

本文测试环境是：python2.7，jieba0.39。

错误提示一

源码文件自身编码问题导致的错误提示：

SyntaxError: Non-ASCII character '\xe8' in file test.py on line 5, but no encoding declared; see http://python.org/dev/peps/pep-0263/ for details

苏南大叔：python2 中有关文件中文编码的处理方案 - python2-encoding-1 — python2 中有关文件中文编码的处理方案（图3-2）

解决方案就是在顶部增加个编码说明，不过在官方说明里面，这个说明有很多种写法，苏南大叔就不具体探讨了。大家可以去下面的页面中，选一个自己喜欢的写法。

http://python.org/dev/peps/pep-0263/

下面的这个，是苏南大叔选择的一个方案。其中一个方案而已，上述网址中有更多的方案。

# coding=utf-8

错误提示二

下面的这个错误提示，苏南大叔认为要归结于python2这个编译过程。

UnicodeDecodeError: 'ascii' codec can't decode byte 0xe5 in position 0: ordinal not in range(128)

这个错误，需要设置另外的编码utf-8。在源码里面增加的python语句如下：

import sys
reload(sys)
sys.setdefaultencoding('utf-8')

苏南大叔：python2 中有关文件中文编码的处理方案 - python2-encoding-2 — python2 中有关文件中文编码的处理方案（图3-3）

总结

python2在未来的一段时间内，还会活跃在编程的舞台。不过，既然是过去时了，那么就让他过去吧。

更多苏南大叔的python经验文字，请点击下面的链接：

https://newsn.net/tag/python/

如果本文对您有帮助，或者节约了您的时间，欢迎打赏瓶饮料，建立下友谊关系。

本博客不欢迎：各种镜像采集行为。请尊重原创文章内容，转载请保留作者链接。

【福利】腾讯云最新爆款活动！1核2G云服务器首年50元！

【源码】本文代码片段及相关软件，请点此获取更多信息

【绝密】秘籍文章入口，仅传授于有缘之人 python jieba

pip安装whl文件时，如何解决invalid file name的问题？
如何判断 python 的 arch 构架信息？是32还是64？
~gohlke/pythonlibs不能访问了，替换方案是什么？
如何使用python装饰器@classmethod定义类方法?
如何使用python装饰器@staticmethod定义静态方法?
python如何利用pickle序列化和反序列化任意变量？

前一篇后一篇联系苏南打赏大叔【真香警告】本站同款服务器，赞助商腾讯云

	原创不易，转载请保留链接，谢绝镜像采集
	如果能解决您的困扰，那么想必定是极好的
	快来这里！大家都在这儿等你讨论这个问题