• 企业400电话
  • 微网小程序
  • AI电话机器人
  • 电商代运营
  • 全 部 栏 目

    企业400电话 网络优化推广 AI电话机器人 呼叫中心 网站建设 商标✡知产 微网小程序 电商运营 彩铃•短信 增值拓展业务
    python爬取豆瓣电影排行榜(requests)的示例代码

    '''
      爬取豆瓣电影排行榜
      设计思路:
           1、先获取电影类型的名字以及特有的编号
           2、将编号向ajax发送get请求获取想要的数据
           3、将数据存放进excel表格中
    '''

    环境部署:

    软件安装:

    Python 3.7.6

    官网地址:https://www.python.org/

    安装地址:https://www.python.org/ftp/python/3.7.6/python-3.7.6-amd64.exe

    PyCharm 2020.2.2 x64 位

    官网地址:https://www.jetbrains.com/pycharm/download/#section=windows

    参考教程:https://www.jb51.net/article/197466.htm

    模块安装(打开cmd或powershell进行下面的命令安装【前提需要有python】):安装requests模块、lxml模块(发送请求,xpath获取数据)

    pip install requests #(主要用来发送请求,获取响应)
    
    pip install lxml #(主要引用里面的etree里面的xpath方法)

    安装xpathhelper插件(可以在网页中复制相应的节点xpath路径并查看)

    1、下载地址:

    链接: https://pan.baidu.com/s/1zfpnrnFtZaxrgqrUX9y5Yg

    提取码: fmsu

    2、window平台下:
        · 把文件的后缀名crx改为rar,然后解压到同名文件夹中
        · 打开谷歌的扩展程序 ——> 进入到管理管理扩展程序中
        · 打开开发者模式,通过加载已解压的扩展程序,将插件导入
    3、ios平台下:
        · 直接将crx文件拖进扩展程序中

    安装xlwt模块(将数据存放进excel表格)

    pip install xlwt

    项目中需要引入的模块:

    import requests
    from lxml import etree
    import xlwt
    import time

    使用流程:

    完整代码:

    # encoding=utf8
    # 编程者 :Alvin
    '''
     爬取豆瓣电影排行榜
     设计思路:
     1、先获取电影类型的名字以及特有的编号
     2、将编号向ajax发送get请求获取想要的数据
     3、将数据存放进excel表格中
    '''
    import requests
    from lxml import etree
    import xlwt
    import time
    
    class DouBan():
     # 初始化数据,获取最外层的数据
     def __init__(self, name_list):
     self.headers = {
     "User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.150 Safari/537.3",
     "Connection": "close",
     "Referer": "https://movie.douban.com/"
     }
     # 获取最外层的数据,并拿到url中的type中的name 和 类型
     self.url = 'https://movie.douban.com/chart'
     self.dydata_list = []
     # 电影的类型名
     self.name_list = name_list
     # 实例化excel表格对象
     self.wb = xlwt.Workbook()
    
    
     # 通过电影的类型名字获取对应的类型号
     def get_data_typenum(self, name):
     for data in self.dydata_list:
     if data['name'] == name:
     typenum =data['dytype']
     else:
     continue
     return typenum
    
     # 获取数据
     def get_data_p1(self):
     response = requests.get(self.url , headers = self.headers)
     # 判断长度是否足够大
     # print(len(response.content.decode()))
     return response.content.decode()
    
     # 获取下一层的页面数据
     def get_data_p2(self, typenum, num, limit):
     url = 'https://movie.douban.com/j/chart/top_list'
     params = {
     'type': typenum,
     'interval_id': '100:90',
     'action':'',
     'start': num*20,
     'limit': limit
     }
     response = requests.get(url,params=params,headers=self.headers)
     # print(response.json())
     return response.json()
    
     # 处理数据
     def data_parse_p1(self, data):
     html = etree.HTML(data)
     data_list = html.xpath('//div[@class="types"]/span/a/@href')
     # 用于收集类型名字
     name_list = []
     dytype_list = []
     # 用于收集类型号
     for data in data_list:
     name = data.split('?')[-1].split('')[0].split('=')[-1]
     dytype = data.split('?')[-1].split('')[1].split('=')[-1]
     name_list.append(name)
     dytype_list.append(dytype)
     for (name,dytype) in zip(name_list,dytype_list):
     dydict = {}
     dydict['name'] = name
     dydict['dytype'] = dytype
     self.dydata_list.append(dydict)
     # print(self.dydata_list)
     return self.dydata_list
    
     def data_parse_p2(self, data_list,name):
     print(len(data_list))
     douban = self.wb.add_sheet(name)
     style = xlwt.XFStyle() # 初始化一个style对象,用来保存excel的样式
     font = xlwt.Font() # 创建一个font对象,用来保存对字体进行的操作
     font.name = '微软雅黑' # 字体设置为'微软雅黑'
     font.bold = True # 字体加粗
     al = xlwt.Alignment() # 创建一个对齐对啊想,用来改变文本内容的字体
     style.font = font # 将字体信息保存到style对象中
     style.alignment = al
    
     # 水平对齐方式、水平居中
     al.horz = 0x02
     # 垂直对齐方式、垂直居中
     al.vert = 0x01
    
     # 电影的标题
     douban.col(0).width = 256 * 25
     # 电影演员的名字
     douban.col(1).width = 256 * 50
     # 电影上映的年份
     douban.col(2).width = 256 * 15
     # 电影上映的国家
     douban.col(3).width = 256 * 15
     # 电影的标签
     douban.col(4).width = 256 * 20
     # 电影的评分
     douban.col(5).width = 256 * 8
     # 豆瓣中该电影的页面链接
     douban.col(6).width = 256 * 40
    
     douban.write(0, 0, '电影标题', style)
     douban.write(0, 1, '电影演员名字', style)
     douban.write(0, 2, '电影上映年份', style)
     douban.write(0, 3, '电影上映国家', style)
     douban.write(0, 4, '电影标签', style)
     douban.write(0, 5, '电影评分', style)
     douban.write(0, 6, '豆瓣中该电影的页面链接', style)
     row = 1
     for data in data_list:
     # 电影的标题
     title = data['title']
     # 电影演员的名字
     actors = data['actors']
     # 电影上映的年份
     release_date = data['release_date']
     # 电影上映的国家
     regions = data['regions'][0]
     # 电影的标签
     types = data['types']
     # 电影评分
     score = data['score']
     # 豆瓣查看的链接
     link = data['url']
     douban.write(row, 0, title)
     douban.write(row, 1, actors)
     douban.write(row, 2, release_date)
     douban.write(row, 3, regions)
     douban.write(row, 4, types)
     douban.write(row, 5, score)
     douban.write(row, 6, link)
     row += 1
     self.wb.save('douban.xls')
    
    
     # 运行程序
     def run(self, num, limit):
     # 获取第一层中的所需要的类型名字和数字
     self.data_parse_p1(self.get_data_p1())
     for name in self.name_list:
     typenum = self.get_data_typenum(name)
     # 向指定的分类进行数据的访问
     data_list = self.get_data_p2(typenum,num,limit)
     # 对获取的数据进行解析保存
     self.data_parse_p2(data_list,name)
    
    
    if __name__ == '__main__':
     # 需要查看的类型
     douban = DouBan(['喜剧','悬疑','惊悚'])
     # 需要查看的开始值start,以及需要查看的数量limit
     douban.run(0,100)
     time.sleep(2)

    效果图pycharm 运行台

    excel表格显示

    本案例笔者的想法是打算先获取到每一个电影类型的前100个数据,然后在excel表格中进行评分的筛选,最后观察现阶段某个电影类型中哪些电影在豆瓣电影中评分较高的

    到此这篇关于python爬取豆瓣电影排行榜(requests)的文章就介绍到这了,更多相关python爬取豆瓣电影内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

    您可能感兴趣的文章:
    • python使用re模块爬取豆瓣Top250电影
    • 用Python 爬取猫眼电影数据分析《无名之辈》
    • Python爬虫爬取电影票房数据及图表展示操作示例
    • python实现的爬取电影下载链接功能示例
    • Python爬虫——爬取豆瓣电影Top250代码实例
    • python使用BeautifulSoup与正则表达式爬取时光网不同地区top100电影并对比
    • python使用requests模块实现爬取电影天堂最新电影信息
    • Python趣味爬虫之爬取爱奇艺热门电影
    上一篇:python 爬取腾讯视频评论的实现步骤
    下一篇:Python中的流程控制详解
  • 相关文章
  • 

    © 2016-2020 巨人网络通讯 版权所有

    《增值电信业务经营许可证》 苏ICP备15040257号-8

    python爬取豆瓣电影排行榜(requests)的示例代码 python,爬取,豆瓣,电影,排行榜,