Python爬虫实战之用selenium爬取某旅游网站-巨人网络通讯

Python爬虫实战之用selenium爬取某旅游网站

一、selenium实战

这里我们只会用到很少的selenium语法，我这里就不补充别的用法了，以实战为目的

二、打开艺龙网

可以直接点击这里进入：艺龙网

这里是主页

三、精确目标

我们的目标是，鹤壁市，所以我们应该先点击搜索框，然后把北京删掉，替换成鹤壁市，那么怎么通过selenium实现呢？
打开pycharm，新建一个叫做艺龙网的py文件，先导包：

from selenium import webdriver 
import time   # 导包
driver = webdriver.Chrome()  # 创建一个selenium的对象
driver.get("http://www.elong.com/")  
time.sleep(1)  # 打开网站，并让它睡1s，避免渲染未完成就进行下一步操作
driver.maximize_window()  # 将浏览器最大化

怎么找到搜索框呢，有很多方法，xpath，css，JavaScript，jQuery，，，因为xpath简单，所以我们只使用xpath，因为这个网站也是可以用xpath的，具体步骤是：

1.F12，小箭头，点击搜索框

2.点击后，找到元素中的位置，右键，复制，复制xpath

3.进入pycharm中，在之前创建的py文件中添加如下代码

driver.find_element_by_xpath('//*[@id="domesticDiv"]/dl[1]/dd/input').clear()
# 将搜索框中的内容清理

4.在搜索框添加“鹤壁市”

driver.find_element_by_xpath('//*[@id="domesticDiv"]/dl[1]/dd/input').send_keys('鹤壁市')

5.点击搜索，进入下一页

time.sleep(1)
driver.find_element_by_xpath('//*[@id="hotel_sub_tabs"]/span[1]/b').click()  # 点击无关
time.sleep(1) # 避免渲染不及时导致报错
driver.find_element_by_xpath('//*[@id="domesticDiv"]/div/span[1]').click()  # 点击搜索

6.下一页
此时我们绝望的发现，这些操作都是没用的（对这个网站没用，但是至少我们学到了点知识？）她还是北京

所以我们只能这样做了
直接点击搜索，进入这个页面后再输入鹤壁（那干嘛不直接访问这个网页呢？为了我这该死的仪式感！！）这样做，再那样做，就行了

from selenium import webdriver
import time   # 导包
driver = webdriver.Chrome()  # 创建一个selenium的对象
driver.get("http://www.elong.com/")
time.sleep(1)  # 打开网站，并让它睡1s，避免渲染未完成就进行下一步操作
driver.maximize_window()  # 将浏览器最大化
driver.find_element_by_xpath('//*[@id="domesticDiv"]/div/span[1]').click()  # 点击搜索
driver.find_element_by_xpath('//*[@id="m_searchBox"]/div[1]/label/input').clear()  # 清空搜索框内容
driver.find_element_by_xpath('//*[@id="m_searchBox"]/div[1]/label/input').send_keys('鹤壁市')  # 在搜索框输入 鹤壁市
time.sleep(1)
driver.find_element_by_xpath('//*[@id="sugContent"]/ul/li[1]/div/div[1]/div[1]/span/b').click()  # 鹤壁市
time.sleep(1)
# 只是改变了顺序，并更换了xpath语法

然后就成功的定位到了鹤壁市

8.分析网页，找到详情页的url
我们可以这样做

我们发现，这个详情页每个的xpath都不相同，怎么做到把所有详情页都“照顾”得到呢？看来只能请出我们的requests来了，然后我们发现，这个只是一段URL，那怎么办？拼接咯！

9.通过查看响应，我们知道响应和元素是一样的，那么说明什么？我们可以通过xpath提取到我们的元素，直接请出我们的xpath选手。

from lxml import etree
import re
html_data = driver.page_source  # 将数据存入html_data
ht = ht_ht.xpath('//div[@class="to_detail"]/a/@data-link')  # 提取到url的后半段

10.拼接字符串形成新URL

点进去一个详情页查看URL，发现是这样的

研究发现，将?issugtrace=2删去也可以运行，而我们通过xpath取到的正是后面的 /31712004/，所以：

for ur in ht:
    new_ul = 'http://www.elong.com' + ur

11.取到详情页URL后，就要点进去，然后再分析网页，再提取数据，然后存数据，找xpath的我就先不说了，也不难。

head = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.114 Safari/537.36'
}
for ur in ht:
    new_ul = 'http://www.elong.com' + ur
    xiangqing_ht = requests.get(new_ul, headers=head).content.decode()  			
    # 使用requests
	time.sleep(1)  # 睡1s
    ht_data = etree.HTML(xiangqing_ht) # 转为可使用xpath的HTML格式
    tingche = ht_data.xpath('//*[@id="hotelContent"]/div/dl[4]/dd/text()')  # 停车位
            if tingche == []:
                tingche = '无停车位'
            name = ht_data.xpath('/html/body/div[3]/div/div[1]/div[1]/div/h1/text()')[0]  # 酒店名字
            phine_num = ht_data.xpath('//*[@id="hotelContent"]/div/dl[1]/dd/span/text()')  # 电话
            photo_li = ht_data.xpath('/html/body/div[3]/div/div[2]/div[1]/div[2]/ul[1]/li/img/@src')  # 照片
            weizhi = ht_data.xpath('//*[@id="map"]/div[1]/div[2]/div[1]/div/div[9]/div[2]/div/p[2]/text()')  # 位置
            miaoshu = ht_data.xpath('//*[@id="hotelContent"]/div/dl[1]/dd/ul/li[2]/div/p/span[1]/text()')

然后我们就拿到了数据，接下来，这些数据怎么保存呢？可以使用字典保存到json中。我就接着上面的写了

dic = {} # 使用字典进行json存储
ic[f"{name}"] = {}
dic[f"{name}"][f"{name}停车场"] = tingche
dic[f"{name}"][f"{name}电话"] = phine_num
dic[f"{name}"][f"{name}位置"] = weizhi
dic[f"{name}"][f"{name}描述"] = miaoshu
path = f"酒店数据//{name}"
if not os.path.exists(path):
    os.mkdir(path)
# 创建酒店文件夹
for num, photo in zip(range(len(photo_li)), photo_li):
    if num > 4:
        break
    else:
        with open(f'酒店数据//{name}//{name, num + 1}.jpg', 'wb') as f:
            f.write(requests.get(photo).content)  # 将照片存进本地
with open(f"酒店数据//{name}//酒店数据.json", 'w') as f:
      f.write(str(dic))  # 将json存入文件
dic = {}  # 将字典内的数据清楚，留待下一次循环使用

12.数据拿到之后，还没完，我们还要爬下一页，首先需要把主页滑倒最底部

for i in range(4):  # 0 1
     time.sleep(0.5)
     j = (i + 1) * 1000  # 1000 2000
     js_ = f'document.documentElement.scrollTop={j}'
     driver.execute_script(js_)
     time.sleep(5)

13.回到主页面，找到下一页的xpath，点击

driver.find_element_by_xpath('//*[@id="pageContainer"]/a[9]').click()

然后，我们就进入了下一页，然后下面就没有代码了，怎么办，怎么让代码一直运行将很多页的数据爬下来呢？有两种方法：

封装函数，并发爬取使用循环进行爬取

然后，就没有然后了…

四、成功

成功拿到数据

结语

希望大家能够通过实战了解各种语法的功能，而不是死记硬背各种语法，那样你很容易忘记，其实很多学习都可以通过这种方式来学习

到此这篇关于Python爬虫实战之用selenium爬取某旅游网站的文章就介绍到这了,更多相关Python selenium爬取网站内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家！

您可能感兴趣的文章:

详解Python 爬取13个旅游城市，告诉你五一大家最爱去哪玩？
Python爬虫入门案例之爬取二手房源数据
Python爬虫入门案例之回车桌面壁纸网美女图片采集
Python爬虫实战之批量下载快手平台视频数据
Python爬虫入门案例之爬取去哪儿旅游景点攻略以及可视化分析

上一篇：教你如何使用Python selenium
下一篇：还在手动盖楼抽奖?教你用Python实现自动评论盖楼抽奖(一)

Python爬虫实战之用selenium爬取某旅游网站

目录一、selenium实战二、打开艺龙网三、精确目标四、成功结语一、selenium实战这里我们只会用到很少的selenium语法，我这里就不补充别的用法了，以实战为目的二、打开艺龙网可Python,爬虫,实战,之用,selenium,...

剑夆AXB系统加盟

电销防封软件是怎样防封的？电销防封软件中，防封号原理是通过中号转拨和线路回呼...

农村商标保护措施

（一）加强建设完善合理的监管体系和举报机制《商标权法》中已规定发生商标专用权...

Windows2003域的企业应用案例

案例环境一： yye1.com上海分公司共有100台计算机，安装的是Windows Server 2003系统和xp系统...

西安防封呼叫中心系统办理,电话系统在哪可以办理-浅析

西安防封呼叫中心系统办理,电话系统在哪可以办理3.受到尊重，等待。因此，客户服务...

大连联通外呼系统服务商,电话营销线路-价格靠谱

大连联通外呼系统服务商,电话营销线路比柜台服务具有更友好的服务界面，只要电话能...

我国著作权法规定的主体

(一)自然人作者我国《著作权法》第11条第2款规定:“创作作品的公民是作者”;第4款规...

为什么很多电销企业使用电销防封系统?

电销防封系统在一定程度上可以解决封号问题，备受电销企业青睐，是电销行业不可或...

电脑安装外呼系统（电脑上的外呼系统是什么）

本文目录一览： 1、电脑上怎样运用外呼体系？2、电脑外呼体系软件怎样装置？3、请问...

大同电信电话营销线路办理商家,电话营销线路办理-欢迎

大同电信电话营销线路办理商家,电话营销线路办理成功营销。销售通过电话沟通记录客...

中山小型外呼系统平台（外呼业务外包平台）

本篇文章给咱们谈谈中山小型外呼体系渠道，以及外呼事务外包渠道对应的知识点，期...

巨人科技有什么优势

400电话已经成为很多大企业小公司都非常熟悉的通话业务，自从400电话业务的出现，为...

ip电话调度-ip电话调度系统-巨☉人☉网☉络通信

电话调度机已经进入IP电话调度机时代，云翌 ip电话调度不仅具有数字程控调度机的丰...

成都不封号电销卡办理套餐

寻找专业代理购买，在购买电销卡时，可以找一些专业代理购买，虽然说三大运营商...

北京电销外呼系统排名（北京电销外包公司）

今日给各位共享北京电销外呼体系排名的常识，其间也会对北京电销外包公司进行解说...

电销机器人创意文案范文（返利机器人推广文案范文）

本文目录一览： 1、如何精准营销？ 2、适合发朋友圈的POS机推广文案，建议收藏 3、有...

Python爬虫实战之用selenium爬取某旅游网站

全 部 栏 目

目录

一、selenium实战

二、打开艺龙网

三、精确目标

四、成功

结语

全部栏目