• 企业400电话
  • 微网小程序
  • AI电话机器人
  • 电商代运营
  • 全 部 栏 目

    企业400电话 网络优化推广 AI电话机器人 呼叫中心 网站建设 商标✡知产 微网小程序 电商运营 彩铃•短信 增值拓展业务
    使用Python爬取小姐姐图片(beautifulsoup法)

    Python有许多强大的库用于爬虫,如beautifulsoup、requests等,本文将以网站https://www.xiurenji.cc/XiuRen/为例(慎点!!),讲解网络爬取图片的一般步骤。
    为什么选择这个网站?其实与网站的内容无关。主要有两项技术层面的原因:①该网站的页面构造较有规律,适合新手对爬虫的技巧加强认识。②该网站没有反爬虫机制,可以放心使用爬虫。

    第三方库需求

     步骤

    打开网站,点击不同的页面:
    发现其首页是https://www.xiurenji.cc/XiuRen/,而第二页是https://www.xiurenji.cc/XiuRen/index2.html,第三页第四页以此类推。为了爬虫代码的普适性,我们不妨从第二页以后进行构造url。

    选中封面图片,点击检查:

    可以发现,图片的信息,都在'div',class_='dan'里,而链接又在a标签下的href里。据此我们可以写一段代码提取出每一个封面图片的url:

    def getFirstPage(page):
      url='https://www.xiurenji.cc/XiuRen/index'+str(page)+'.html'#获得网站每一个首页的网址
      res=requests.get(url)#发送请求
      res.encoding="gbk"#设置编码方式为gbk
      html=res.text
      soup=BeautifulSoup(html,features='lxml')
      lists=soup.find_all('div',class_='dan')#找到储存每一个封面图片的标签值
      urls=[]
      for item in lists:
       url1=item.find('a').get('href')#寻找每一个封面对应的网址
       urls.append('https://www.xiurenji.cc'+url1)#在列表的尾部添加一个元素,达到扩充列表的目的,注意要把网址扩充完整
      return urls#返回该主页每一个封面对应的网址

    点击封面图片,打开不同的页面,可以发现,首页的网址是https://www.xiurenji.cc/XiuRen/xxxx.html,而第二页的网址是https://www.xiurenji.cc/XiuRen/xxxx_1.html,第三第四页同理。同样为了普适性,我们从第二页开始爬取。

    右键,点击“检查”:

    可以发现所有的图片信息都储存在'div',class_='img'中,链接、标题分别在img标签中的srcalt中,我们同样也可以将它们提取出来。

    def getFirstPage(page):
      url='https://www.xiurenji.cc/XiuRen/index'+str(page)+'.html'#获得网站每一个首页的网址
      res=requests.get(url)#发送请求
      res.encoding="gbk"#设置编码方式为gbk
      html=res.text
      soup=BeautifulSoup(html,features='lxml')
      lists=soup.find_all('div',class_='dan')#找到储存每一个封面图片的标签值
      urls=[]
      for item in lists:
       url1=item.find('a').get('href')#寻找每一个封面对应的网址
       urls.append('https://www.xiurenji.cc'+url1)#在列表的尾部添加一个元素,达到扩充列表的目的,注意要把网址扩充完整
      return urls#返回该主页每一个封面对应的网址

    完整代码

    import requests
    from bs4 import BeautifulSoup
    
    def getFirstPage(page):
      url='https://www.xiurenji.cc/XiuRen/index'+str(page)+'.html'#获得网站每一个首页的网址
      res=requests.get(url)#发送请求
      res.encoding="gbk"#设置编码方式为gbk
      html=res.text
      soup=BeautifulSoup(html,features='lxml')
      lists=soup.find_all('div',class_='dan')#找到储存每一个封面图片的标签值
      urls=[]
      for item in lists:
       url1=item.find('a').get('href')#寻找每一个封面对应的网址
       urls.append('https://www.xiurenji.cc'+url1)#在列表的尾部添加一个元素,达到扩充列表的目的,注意要把网址扩充完整
      return urls#返回该主页每一个封面对应的网址
    
    def download(urls):
     for url1 in urls:
      print("prepare to download pictures in "+url1)
      getEveryPage(url1)#下载页面内的图片
      print("all pictures in "+url1+"are downloaded")
      
    def getEveryPage(url1):
     total=0#total的作用:对属于每一个封面内的图片一次编号
     for n in range (1,11):#每一个封面对应下载10张图,可自行调整
      temp=url1.replace('.html','')
      url2=temp+'_'+str(n)+'.html'#获得每一内部页面的网址
      res=requests.get(url2)
      res.encoding="gbk"
      html=res.text
      soup=BeautifulSoup(html,features='lxml')
      lists1=soup.find_all('div',class_='img')#储存图片的路径
      
      for item in lists1:
       url=item.find('img').get('src')
       title=item.find('img').get('alt')#获取图片及其标题
       picurl='https://www.xiurenji.cc'+url#获取完整的图片标题
       picture=requests.get(picurl).content#下载图片
       address='D:\pythonimages'+'\\'#自定义保存图片的路径
       with open(address+title+str(total)+'.jpg','wb') as file:#保存图片
        print("downloading"+title+str(total))
        total=total+1
        file.write(picture)
        
    
    if __name__ == "__main__":
     page=int(input('input the page you want:'))
     urls=getFirstPage(page)
     download(urls)

    本文仅供学习参考,切勿用作其他用途!

    到此这篇关于Python爬取小姐姐图片(beautifulsoup法)的文章就介绍到这了,更多相关Python爬取小姐姐图片内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

    您可能感兴趣的文章:
    • Python爬虫实战之使用Scrapy爬取豆瓣图片
    • Python爬虫之教你利用Scrapy爬取图片
    • Python爬取网站图片并保存的实现示例
    • python制作微博图片爬取工具
    • python绕过图片滑动验证码实现爬取PTA所有题目功能 附源码
    • 利用python批量爬取百度任意类别的图片的实现方法
    • Python使用xpath实现图片爬取
    • Python Scrapy图片爬取原理及代码实例
    • Python3直接爬取图片URL并保存示例
    • python爬取某网站原图作为壁纸
    上一篇:详解python日志输出使用配置文件格式
    下一篇:SpringBoot首页设置解析(推荐)
  • 相关文章
  • 

    © 2016-2020 巨人网络通讯 版权所有

    《增值电信业务经营许可证》 苏ICP备15040257号-8

    使用Python爬取小姐姐图片(beautifulsoup法) 使用,Python,爬取,小,姐姐,