• 企业400电话
  • 微网小程序
  • AI电话机器人
  • 电商代运营
  • 全 部 栏 目

    企业400电话 网络优化推广 AI电话机器人 呼叫中心 网站建设 商标✡知产 微网小程序 电商运营 彩铃•短信 增值拓展业务
    解决python 使用openpyxl读写大文件的坑

    由于需要处理xlsx类型的文件,我使用了openpyxl来处理,然而文件比较大,大约有60多MB。读文件的时候虽然慢了一点,但还是能够读出来,但是当我想写入时却报错了。

    显示设备没有多余的空间,百度了一下,发现有不少关于openpyxl读写大文件的问题。总结来看,解决方案主要有以下两种,当然,我两种都用上了。

    手动释放内存

    del wb, ws
    gc.collect()

    这一招还算有用,在读完文件后可以看到内存占用明显下降了一点。

    安装lxml

    使用命令·pip install lxml安装依赖

    这个依赖并非必须安装的依赖,但是可以使openpyxl流式处理数据。

    总之使用了以上两种方案后,终于可以成功处理数据了。

    补充:openpyxl读取大文件的若干问题

    需要编写一个EXCEL文件对比工具

    excel文件通常8MB,300张左右的表,每张表实际范围为ZZ500.

    使用openpyxl对表格进行遍历,完成两个表之间的对比,找出公式不相同的单元格编程中遇到若干问题

    1、读取时报错,错误代码忘记了,原因是通过数组的方式读取了一个不存在的数值

    如 SS['AA'],这个数值没有定义,因此报错(PHP直接返回空值),使用SS.get('AA',null)进行修改

    D:\Python34\Lib\site-packages\openpyxl\reader\style.py

    164: format_code = builtin_formats.get(numFmtId,'General')

    2、读取时内存占用过大

    基本就是内存占用了2G以上以后,程序就不动了,原因是某些表格的表格范围识别的非常大,最大可为ZZ65535

    通过研究,代码进行了如下修改

    1:使用X64版本,X64版本在运行时,可以运行4G以内内存占用的程序,比2G大一倍,能够完成大部分表格的读取,如ZZ5000,但是遇到ZZ65535范围的表格,内存占用达到了4G+,也会导致程序停止运行.

    2:限制最大单元格遍历范围,最大限制为ZZ5000,能够有效降低内存占用

    3:定时重新读取EXCEL文件(如每对比30张表),释放内存,(Python内存释放真的很痛苦,全部是指针引用,A=B,DEL A;是不会释放空间的,要DEL B才行).

    4:虽然openpyxl读取文件时有个只读模式(性能模式),但是速度实在是太慢了.

    通过代码修改,现在完成文件对比所用的内存通常在2G以内

    以上为个人经验,希望能给大家一个参考,也希望大家多多支持脚本之家。如有错误或未考虑完全的地方,望不吝赐教。

    您可能感兴趣的文章:
    • python 办公自动化——基于pyqt5和openpyxl统计符合要求的名单
    • Python Excel处理库openpyxl详解
    • python使用openpyxl库读写Excel表格的方法(增删改查操作)
    • Python利器openpyxl之操作excel表格
    • Python离线安装openpyxl模块的步骤
    • Python openpyxl 无法保存文件的解决方案
    • python openpyxl 带格式复制表格的实现
    • python 使用openpyxl读取excel数据
    • python openpyxl的使用方法
    上一篇:Python openpyxl 无法保存文件的解决方案
    下一篇:Django session登陆并获取值的实例
  • 相关文章
  • 

    © 2016-2020 巨人网络通讯 版权所有

    《增值电信业务经营许可证》 苏ICP备15040257号-8

    解决python 使用openpyxl读写大文件的坑 解决,python,使用,openpyxl,