Python编解码问题及文本文件处理方法详解-巨人网络通讯

Python编解码问题及文本文件处理方法详解

编解码器

在字符与字节之间的转换过程称为编解码，Python自带了超过100种编解码器，比如：

ascii（英文体系）
gb2312（中文体系）
utf-8（全球通用）
latin1
utf-16

编解码器一般有多个别名，比如utf8、utf-8、U8。

这些编解码器可以传给open()、str.encode()、bytes.decode()等函数的encoding参数。

UnicodeEncodeError

多数非UTF编解码器（比如cp437）只能处理Unicode字符的一小部分子集。把字符转换成字节时，如果目标编码中没有定义这个字符，那么就会抛出UnicodeEncodeError异常。

处理方式一：使用utf8编码。

处理方式二：添加errors参数：

# 忽略 如b'So Paulo'
city.encode("cp437", errors="ignore")
# 替换为? 如b'S?o Paulo'
city.encode("cp437", errors="replace")
# 替换为XML实体 如b'S#227;o Paulo'
city.encode("cp437", errors="xmlcharrefreplace")

UnicodeDecodeError

把字节转换为字符时，遇到无法转换的字节时会抛出UnicodeDecodeError异常。这是因为不是每个字节都包含有效的ASCII字符，也不是每个字符都是有效的UTF-8。

处理方式也有两种，跟上面一样。

SyntaxError

Python3默认使用UTF-8编码源码。如果加载的.py模块中包含UTF-8之外的数据，而且没有声明编码，就会抛出SyntaxError异常。

处理方式是在文件顶部添加coding注释：

# coding: cp1252

但是这个办法并不好，最好还是找到这些报错字符，把它们转换为UTF-8。

从网上直接复制代码到IDE中执行经常会报这个错。

处理文本文件

Unicode三明治：

在程序中尽量少接触二进制，把字节解码为字符，只处理字符串对象。比如在Django中，view应该输出Unicode字符串，Django会负责把响应数据编码成字节序列，而且默认使用UTF-8编码。

Python内置的open函数就是采用了这个原则，在读取文件时会做必要的解码，以文本模式写入文件时会做必要的编码。

文件乱码

Windows更容易遇到这个问题，因为Windows并不是统一的UTF-8编码，比如在Windows10中：

>>> open("cafe.txt", "w", encoding="utf8").write("café")
4
>>> open("cafe.txt").read()
'caf茅'

写入文件时指定了utf8，但是读取文件没有指定，Python就会使用系统默认编码：

>>> import locale
# 打开文件用这个
# 如果没有设置PYTHONENCODING环境变量，sys.stdout/stdin/stderr也用这个
>>> locale.getpreferredencoding()
'cp936'

cp936把最后一个字节解码成了茅而不是é。

>>> import sys
# 二进制数据和字符串之间转换用这个
>>> sys.getdefaultencoding()
'utf-8'

>>> import sys
# 文件名（不是文件内容）用这个
>>> sys.getfilesystemencoding()
'utf-8'

GNU/Linux或Mac OS X不会遇到这个问题，因为多年来它们的默认编码都是UTF-8。

解决办法是一定不能依赖系统默认编码，打开文件时始终应该明确传入encoding=参数，因为不同的设备使用的默认编码可能不同，有时隔一天也会发生变化。

小结

本文介绍了Python的编解码器，以及可能出现的UnicodeEncodeError、UnicodeDecodeError、SyntaxError问题，然后给出了Python的open函数处理文本文件的原则，最后对Windows容易出现的文件乱码问题进行了说明。

到此这篇关于Python编解码问题及文本文件处理方法的文章就介绍到这了,更多相关Python编解码及文本处理内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家！

参考资料：

《流畅的Python》

您可能感兴趣的文章:

Python使用email模块对邮件进行编码和解码的实例教程
Python简单实现Base64编码和解码的方法
Python中json格式数据的编码与解码方法详解
Python base64编码解码实例
对python中url参数编码与解码的实例详解
详解Python中的文本处理
Python文本处理之按行处理大文件的方法
Python实现简单文本字符串处理的方法
python处理文本文件并生成指定格式的文件
Python处理文本文件中控制字符的方法

上一篇：浅谈Python协程asyncio
下一篇：利用python进行数据加载

Python编解码问题及文本文件处理方法详解

编解码器在字符与字节之间的转换过程称为编解码，Python自带了超过100种编解码器，比如： ascii（英文体系） gb2312（中文体系） utf-8（全球通用） latin1 utf-16 编解码器一般有多个别名Python,编,解码,问题,及,文本,...

商丘400申请：走进黄河文化之城的机遇与挑战-商丘400申

商丘作为黄河文化的重要代表之一，历史悠久、文化灿烂。而商丘400申请，则是将这座...

长春呼叫系统的价格

汇港通自主研发基于大数据、云计算的产品。帮助中小企业提率，提升管理，优化运维...

湖州餐饮加盟电话销售系统办理服务商,外呼系统-本周热

湖州餐饮加盟电话销售系统办理服务商,外呼系统跟进比较困难，员工呼出电话之后信息...

Win8.1下IE11浏览器如何添加网址收藏常用的网站

保存常用的网站是多数人使用浏览器的习惯，这个行为被称之为添加收藏或添加书签。...

广州防封电销系统如何搭建

电销系统专门用的线路市场上有很多正规的线路都是有全地域的线路，如果公司业务对...

MySQL索引是啥?不懂就问

目录概述从二叉树到B+树聚集索引非聚集索引联合索引和覆盖索引 B+树索引VS哈希索...

智能客服系统基本功能介绍

智能客服系统是一种能够通过与用户的交互实现智能客服的系统。智能客服系统通过对...

安庆电话机器人（安庆电话机器人系统）

本文目录一览：1、能率燃气灶售后服务电话(全国统一)24小时人工客服2、电话是那年创...

无锡知识产权外呼系统办理商家,电话营销系统-详情报价

无锡知识产权外呼系统办理商家,电话营销系统全部振铃、轮番振、近接通、少接通、随...

昆明企业电销机器人价格（电销机器人厂家）

本文目录一览： 1、电销机器人到底多少钱？价格来去怎么这么大？2、电销机器人一年...

使用Ajax实现简单的带百分比进度条实例

需求：当进行文件长传保存等操作时，能在页面显示一个带百分比的进度条，给用户一...

第三方网站在线客服系统，多渠道接入

随着电子商务的快速发展，在线客服系统在各行业的应用也越来越广泛。通过在线客服...

电销机器人电销机器人类云呼_电话机器人

如果客户在外呼过程中愿意被转入人工服务，说明他对产品的意向比较正向的。如果能...

电销话术通关评分卡（电销话术分析）

本文目录一览：1、电销的销售话术技巧2、做电销的话术有哪些?3、史上最齐全的电销技...

如何购买正规物联卡,怎么选择物联卡代理公司

目前，物联网卡的销售渠道有很多，线上的，线下人，据小编调查，目前大部分人购买...

Python编解码问题及文本文件处理方法详解

全 部 栏 目

编解码器

UnicodeEncodeError

UnicodeDecodeError

SyntaxError

处理文本文件

文件乱码

小结

全部栏目