• 企业400电话
  • 微网小程序
  • AI电话机器人
  • 电商代运营
  • 全 部 栏 目

    企业400电话 网络优化推广 AI电话机器人 呼叫中心 网站建设 商标✡知产 微网小程序 电商运营 彩铃•短信 增值拓展业务
    python爬取之json、pickle与shelve库的深入讲解

    前言

    在使用Python进行网络编程或者爬取一些自己感兴趣的东西时,总避免不了进行一些数据传输、存取等问题,Python的文件对象以及其他扩展库,已经解决了很多关于文本和二进制数据存取的问题,比如网页内容、图片音视频等多媒体内容,但这些数据基本是最终的数据形态存储,有没有办法可以存储Python本身的一些对象数据,后续在使用的时候,再直接加载为Python对象即可,本文便讲解下常用的Python对象数据存取、传输解决方案,即pickle、shelve、json。

    内容比较基础,也比较简单,但也是必须好好掌握的知识点,因为其潜在的应用场景太广

    一、pickle

    pickle库提供了一种将Python对象(所有对象)本地化存储的解决方案,后续还可以从这些文件内重新加载,加载后又是Python标准的对象数据,可以用Python直接使用。

    pickle有以下特点:

    1. 可以存取所有类型Python对象,并本地化到一个文件内
    2. 每个文件内只能存储一个Python对象

    1.1 临时转换

    可以将Python对象临时转化为pickle序列(存储在变量内而不是文件内),后续再进行加载使用。

    import pickle
    a=[1,2,3,4]
    #以下将a转化为pickle序列
    p_a=pickle.dumps(a)
     
    #以下将pickle序列转化为Python对象
    a=pickle.loads(p_a)

    1.2 永久化存取

    可以将Python对象存储到本地文件内,方便下次取出继续使用。

    import pickle
    a=[1,2,3,4]
    f=open('file.pkl','wb')
     
    #以下将a转化为pickle序列并存储到本地文件
    p_a=pickle.dump(a,f)
     
    f=open('file.pkl','rb')
    #以下将存储在本地文件内的pickle序列转化为Python对象
    a=pickle.load(f)
     
    f.close()
    

    以上,首先打开一个文件,注意,因为pickle序列是二进制编码格式,所以文件模式需要有'b'

    然后将Python对象序列化并存储到本地文件

    后续可通过加载该文件,将里面存储的数据重新加载为Python对象

    二、shelve

    shelve库相当于基于pickle的优化,因为pickle单文件只能存储单个Python对象,并且每次存取都需要使用dump和load,比较繁琐,所以,该库主要做了以下优化:

    1. 创建了一个轻量级的键值对数据库,支持一个文件内存储多个Python对象
    2. 不需要每次都load,对Python数据的存取,变成了标准的字典访问

    以下是演示代码:

    import shelve
    db=shelve.open('obj_db')
    class A:...
    a=[1,2,3];b=dict(name='dennis');c=A
    db['a']=a
    db['b']=b
    db['c']=c
     
    db['a']
    db['b']
    db['c']
     
    db.close()

    以上代码,首先使用shelve的open方法创建一个db,可以指定db文件的存储地址

    然后便可以像使用字典一样,用来在该键值对的db内存储Python对象(任何Python对象)

    然后可像字典访问一样,重新取出之前已经存储的对象,最后,别忘了战术性关闭db

    如果想遍历或内省某db内存量键值,该db也有keys()和values()方法,也支持Python的迭代协议

    所以,相较于pickle来说,会方便和强大很多

    三、json

    json是进行网络数据传输应用最为广泛的数据格式,其可以将Python指定的一些数据对象转化为json字符串,便于进行存储和网络传输,并将该json序列化的字符串重新转变为Python对象。

    大体过程为Python→JSON→Python,所以可以进行CS数据传输和通信。

    以下为json和Python数据转换映射表:

    JSON Python
    object dict
    array list
    string str
    number (int) int
    number (real) float
    true,false Ture,False
    null None

    3.1 临时转换

    可以将Python对象临时转化为json字符串并赋值给某变量,待后续再对其转化为Python对象

    一般用于网络传输,尤其是接口调用时数据传输。

    import json
    mylist=[1,2,3]
    mydict={
     'name':dennis
    }
    #临时转换
    a=json.dumps(mydict)
    b=json.dumps(mylist)
    #将json字符串重新转为Python对象
    mylist=json.loads(b)
    mydict=json.loads(a)
    

    3.2 永久化存取

    可以将Python对象转换为json字符串并永久性存储在本地文件内,便于后续重新加载使用。

    import json
    mylist=[1,2,3]
    mydict={
     'name':dennis
    }
     
    #将Python对象转化为json字符串,同时存储到file内
    with open('myjson.json','w') as f:
     json.dump(mydict,f)
     
    #将存储在文件内的json字符串加载并转化为Python对象
    with open('myjson.json','r') as f:
     json.load(f)
    

    总结

    到此这篇关于python爬取之json、pickle与shelve库的文章就介绍到这了,更多相关python json、pickle与shelve库内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

    您可能感兴趣的文章:
    • pytorch 实现计算 kl散度 F.kl_div()
    • Python 机器学习工具包SKlearn的安装与使用
    • python数据分析之用sklearn预测糖尿病
    • pandas读取excel,txt,csv,pkl文件等命令的操作
    • 基于KL散度、JS散度以及交叉熵的对比
    上一篇:python程序调用远程服务的步骤详解
    下一篇:使用Python的pencolor函数实现渐变色功能
  • 相关文章
  • 

    © 2016-2020 巨人网络通讯 版权所有

    《增值电信业务经营许可证》 苏ICP备15040257号-8

    python爬取之json、pickle与shelve库的深入讲解 python,爬,取之,json,pickle,