python 实现存储数据到txt和pdf文档及乱码问题的解决-巨人网络通讯

python 实现存储数据到txt和pdf文档及乱码问题的解决

第一、几种常用方法

读取TXT文档：urlopen()

读取PDF文档：pdfminer3k

第二、乱码问题

(1)、

from urllib.request import urlopen
#访问wiki内容
html = urlopen("https://en.wikipedia.org/robots.txt")
print(html.read())

输出的结果中出现乱码原因：

计算机只能处理0和1两个数字，所以想要处理文本，必须把文本变成0和1这样的数字，最早的计算机使用八个0和1表示一个字节，所以最大能够表示整数是255=11111111.如果想要表示更大的数，必须使用更多的字节。

由于计算机是美国人发明的，所以最早只有127个字符被编写进计算机，即常见的阿拉伯数字，字母大小写，以及键盘上的符号。此编码被称为ASCII编码，比如大写字母A的ASCII编码是65,65再被转换二进制01000001，即是计算机处理的东西。

显然，ASCII不能表示中文，故中国制定了自己的GB2312编码，并且兼容ASCII编码。问题是：使用GB2312编码的慕课网三个字，假设编码为61,62,63.但在ASCII码表可能是其他字符。如下图示，日文中的616263编码成其他字符，打开后意思出错。

解决方法：

国际上的unicode编码，整合全世界所有编码。故unicode编码的内容在任一台计算机用unicode仍正常打开

又对于A,ASCII编码为01000001，Unicode编码：0000000001000001此时浪费空间

故出现UTF-8编码：01000001此时用两个八位存储中文。

(2)、记事本使用unicode编码，将记事本存到计算机时，将转化为utf-8储存。

在计算机中打开文本时，将转化为unicode编码

存储原因：使用utf-8储存节省空间，使用unicode打开保证最大的兼容

(3)、服务器读取uncode编码的文档，转化为utf-8格式传给浏览器。因为网络带宽昂贵，转化为了减少负担。

(4)、python3字符串默认使用Unicode编码，所以python3支持多种语言

以Unicode表示的str通过encode()方法可以编码为指定的bytes

如果bytes使用ASCII编码，遇到ASCII码表没有的字符会以\x##表示，此时只用‘\x##'.decode('utf-8')即可

(5)、解决方法

from urllib.request import urlopen
#访问wiki内容
html = urlopen("https://en.wikipedia.org/robots.txt")
print(html.read().decode("utf-8"))

第三、pdfminer3k安装

法一：

(1)、进入网址直接下载并解压：https://pypi.python.org/pypi/pdfminer3k/

(2)、以管理员身份运行命令行窗口，进入软件解压缩位置，运行python setup.py install

法二：

(3)、直接在pycharm中安装

(4)、读取pdf过程：首先创建一个分析器pdfparser和文档对象pdfdocument，并通过两个方法相互关联，然后调用文档对象的初始化方法（可以传参数），此时资源内容被加载到文档对象中。

创建资源管理器和参数分析器，然后创建聚合器(整合资源管理器和参数分析器)，通过聚合器创建解释器（对pdf文档进行编码，解释成python能识别的格式）

(5)、读取pdf文档：通过文档对象的get_pages()方法得到pdf每一页的内容，通过解释器的process_page()方法读取一页一页。

(6)、实例演示

from pdfminer.converter import PDFPageAggregator
from pdfminer.layout import LAParams
from pdfminer.pdfparser import PDFParser, PDFDocument
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.pdfdevice import PDFDevice
#获得文档对象,以二进制读方式打开
fp = open("naacl06-shinyama.pdf", "rb")
#创建一个与文档关联的分析器
parser = PDFParser(fp)
#创建一个pdf文档的对象
doc = PDFDocument()
#连接解释器与文档对象
parser.set_document(doc)
doc.set_parser(parser)
#初始化文档,如果文档有密码，写与此。
doc.initialize("")
#创建pdf资源管理器
resource = PDFResourceManager()
#参数分析器
laparam = LAParams()
#创建聚合器
device = PDFPageAggregator(resource, laparams=laparam)
#创建pdf页面解释器
interpreter = PDFPageInterpreter(resource, device)
#使用文档对象得到页面的集合
for page in doc.get_pages():
  #使用页面解释器读取
  interpreter.process_page(page)
  #使用聚合器来获得内容
  layout = device.get_result()
  for out in layout:
    if hasattr(out, "get_text"):
      print(out.get_text())

一下用于读取网站上pdf内容

fp = urlopen(http://www.tencent.com/zh-cn/articles/8003251479983154.pdf)

补充内容：

以上为个人经验，希望能给大家一个参考，也希望大家多多支持脚本之家。如有错误或未考虑完全的地方，望不吝赐教。

您可能感兴趣的文章:

Python爬虫爬取全球疫情数据并存储到mysql数据库的步骤
Python爬取腾讯疫情实时数据并存储到mysql数据库的示例代码
MySQL和Python交互的示例
配置python连接oracle读取excel数据写入数据库的操作流程
Python 对Excel求和、合并居中的操作
如何用python合并多个excel文件
python基于pyppeteer制作PDF文件
python操作mysql、excel、pdf的示例

上一篇：Python 制作词云的WordCloud参数用法说明
下一篇：python pdfkit 中文乱码问题的解决方案

python 实现存储数据到txt和pdf文档及乱码问题的解决

第一、几种常用方法读取TXT文档：urlopen() 读取PDF文档：pdfminer3k 第二、乱码问题 (1)、 from urllib.request import urlopen#访问wiki内容html = urlopen(\"https://en.wikipedia.org/robots.txt\")print(html.read()) 输出python,实现,存储,数据,到,...

汉沽区电话机器人维修点（汉沽家电修理电器电话）

本文目录一览：1、帅康燃气灶维修电话——24小时全国统一400客服维修服务中心2、玉溪...

福州防封电销系统加盟（防封号电销系统安全吗）

本篇文章给大家谈谈福州防封电销系统加盟，以及防封号电销系统安全吗对应的知识点...

淮安白名单电销卡真的不封号吗

淮安白名单电销卡真的不封号吗电销企业最离不开的就是电销卡，因为电销卡可以满足...

发送侵权通知时应一并提供权利人身份证明、联系方式等

【案例要旨】在权利人或利害关系人依据侵权责任法第三十六条向电商平台发送侵权通...

运城联通外呼机器人批发网,电销机器人-诚信服务

运城联通外呼机器人批发网,电销机器人系统通常都支持通话记录的批量和重复播放，人...

湖州防封电销系统多少钱

湖州防封电销系统多少钱打电话前，可以先用软件对号码进行筛选，减少无效的拨打，...

长春不封号外呼系统服务商,电话呼叫软件多少钱-欢迎光

长春不封号外呼系统服务商,电话呼叫软件多少钱壁龛式安装稳定牢固。4)从切换箱拉至...

电话机器人加盟的注意事项

电话机器人加盟的注意事项人工智能的发展已经成为这个时代的主旋律，相信在各大信...

oem电话机器人贴牌（电话机器人品牌排行）

本文目录一览：1、市面上这么多电话机器人品牌,哪家效果比较好2、OEM就是贴牌生产讲...

个人站长成功创业三要素

9月23日有幸参加了全国的互联网大会，这次大会大家从网上也看了很冷清，开幕式感觉...

公司400电话怎么申请开通（移动400电话怎么申请）

公司400电话怎么申请开通（移动400电话怎么申请）现在越来越多的企业开始注重客户服...

外呼系统后台修理时间的简单介绍

本文目次一览： 1、外呼零碎怎样操持？ 2、外呼零碎是怎样用的？ 3、网御零碎中事中...

外呼系统图片及价格（外呼系统报价）

本文目次一览： 1、市道上外呼零碎挺多的，外呼零碎几何钱一个？ 2、外呼零碎一个几...

上市公司审批更需要简政放权

2015年03月06日讯作为来自上市公司的代表，我更关注在审批制度改革中政府如何给企业...

南昌今年将采取“点对点”招商方式开拓服务外包市场

为加快我市服务外包产业的发展，我市今年将推进与国内外服务外包发达城市的交流与...

python 实现存储数据到txt和pdf文档及乱码问题的解决

全 部 栏 目

第一、几种常用方法

第二、乱码问题

输出的结果中出现乱码原因：

解决方法：

第三、pdfminer3k安装

法一：

法二：

全部栏目