python+selenium爬取微博热搜存入Mysql的实现方法-巨人网络通讯

企业400电话

微网小程序

AI电话机器人

电商代运营

全部栏目

企业400电话网络优化推广 AI电话机器人呼叫中心网站建设商标✡知产微网小程序电商运营彩铃•短信增值拓展业务

python+selenium爬取微博热搜存入Mysql的实现方法

目录

使用的库
一：得到数据
二：链接数据库

最终的效果

废话不多少，直接上图

这里可以清楚的看到，数据库里包含了日期，内容，和网站link
下面我们来分析怎么实现

使用的库

import requests
from selenium.webdriver import Chrome, ChromeOptions
import time
from sqlalchemy import create_engine
import pandas as pd

目标分析

这是微博热搜的link：点我可以到目标网页

首先我们使用selenium对目标网页进行请求
然后我们使用xpath对网页元素进行定位，遍历获得所有数据
然后使用pandas生成一个Dataframe对像，直接存入数据库

一：得到数据

我们看到，使用xpath可以得到51条数据，这就是各热搜，从中我们可以拿到链接和标题内容

all = browser.find_elements_by_xpath('//*[@id="pl_top_realtimehot"]/table/tbody/tr/td[2]/a') #得到所有数据
	context = [i.text for i in c] # 得到标题内容
  links = [i.get_attribute('href') for i in c] # 得到link

然后我们再使用zip函数，将date，context，links合并
zip函数是将几个列表合成一个列表，并且按index对分列表的数据合并成一个元组，这个可以生产pandas对象。

dc = zip(dates, context, links)
  pdf = pd.DataFrame(dc, columns=['date', 'hotsearch', 'link'])

其中date可以使用time模块获得

二：链接数据库

这个很容易

enging = create_engine("mysql+pymysql://root:123456@localhost:3306/webo?charset=utf8")
pdf.to_sql(name='infromation', con=enging, if_exists="append")

总代码

from selenium.webdriver import Chrome, ChromeOptions
import time
from sqlalchemy import create_engine
import pandas as pd

def get_data():
  url = r"https://s.weibo.com/top/summary" # 微博的地址
  option = ChromeOptions()
  option.add_argument('--headless')
  option.add_argument("--no-sandbox")
  browser = Chrome(options=option)
  browser.get(url)
  all = browser.find_elements_by_xpath('//*[@id="pl_top_realtimehot"]/table/tbody/tr/td[2]/a')
  context = [i.text for i in all]
  links = [i.get_attribute('href') for i in all]
  date = time.strftime("%Y-%m-%d-%H_%M_%S", time.localtime())
  dates = []
  for i in range(len(context)):
    dates.append(date)
  # print(len(dates),len(context),dates,context)
  dc = zip(dates, context, links)
  pdf = pd.DataFrame(dc, columns=['date', 'hotsearch', 'link'])
  # pdf.to_sql(name=in, con=enging, if_exists="append")
  return pdf

def w_mysql(pdf):
  try:
    enging = create_engine("mysql+pymysql://root:123456@localhost:3306/webo?charset=utf8")
    pdf.to_sql(name='infromation', con=enging, if_exists="append")
  except:
    print('出错了')

if __name__ == '__main__':
  xx = get_data()
  w_mysql(xx)

到此这篇关于python+selenium爬取微博热搜存入Mysql的实现方法的文章就介绍到这了,更多相关python selenium爬取微博热搜存入Mysql内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家！

您可能感兴趣的文章:

python爬取天气数据的实例详解
用python爬取历史天气数据的方法示例
python爬取哈尔滨天气信息
python3爬取各类天气信息
Python爬取国外天气预报网站的方法
Python爬虫爬取微博热搜保存为 Markdown 文件的源码
如何用python爬取微博热搜数据并保存
Python网络爬虫之爬取微博热搜
python趣味挑战之爬取天气与微博热搜并自动发给微信好友

上一篇：基于Python的接口自动化unittest测试框架和ddt数据驱动详解
下一篇：一个入门级python爬虫教程详解

相关文章

python+selenium爬取微博热搜存入Mysql的实现方法

目录使用的库一：得到数据二：链接数据库最终的效果废话不多少，直接上图这里可以清楚的看到，数据库里包含了日期，内容，和网站link 下面我们来分析怎么实现使用的库 impython+selenium,爬取,微博,...

快手商家号认证对企业的影响

开通快手企业蓝 V号，是在快手做生意的第一步，每个企业都应该有一个蓝 V号。很多...

沧州自动外呼系统招商（沧州外呼系统哪家公司做得好）

本篇文章给我们谈谈沧州主动外呼体系招商，以及沧州外呼体系哪家公司做得好对应的...

武汉外呼电销机器人报价（电销机器人价格）

本文目录一览： 1、机器人外呼系统多少钱一个月？大概范围 2、智能电话销售机器人多...

南通语音外呼系统（电话语音外呼系统）

本文目录一览： 1、电销客外呼系统都有那些功能？ 2、什么是外呼系统？ 3、外呼系统...

兰州ai电话机器人（ai电话销售机器人）

本篇文章给大家谈谈兰州ai电话机器人，以及ai电话销售机器人对应的知识点，希望对各...

电话机器人智能（电话智能机器人）

本文目录一览： 1、智能电话机器人功能强在哪里？2、什么是电话机器人?3、智能电话...

redhat linux 下载大全完全整理

Red Hat 7.0 ftp://ftp.cse.cuhk.edu.hk/pub/redha...espin-disc1.iso ftp://ftp.cse.cuhk.edu.hk/pub/redha...espin-d...

联通电信400电话400电话怎么办理收费标准

400电话不是免费的，而是免费的号码费、开户费和月租费。申请400电话非常快捷、方便...

移动物联网卡话费充值（如何用移动物联网卡充值话费）

用骏网一卡通可不可以给移动物联网卡充值话费可以充值的! 能用移动手机支付为物...

甘肃外呼电销机器人招商（电销智能外呼机器人系统）

今天给各位分享甘肃外呼电销机器人招商的知识，其中也会对电销智能外呼机器人系统...

win10平板版怎么样？windows10平板电脑使用评测视频

win10平板版怎么样?下文将进行win10平板电脑使用评测，如果Windows10系统在平板电脑上运...

手机app在线客服系统的改变

随着互联网技术的不断更迭，一切以互联网为基础的行业都在不断的跟新和变化中。...

广州自动电话机器人维修（广州智能机器人专卖店）

本文目录一览：1、伦茨变频器维修的专业人员或公司去哪里找?2、工业机器人维修有哪...

沁阳代理外呼系统（自动外呼系统代理）

本文目录一览： 1、电销客外呼体系有谁在用，软件有什么特性性能？ 2、比来打算搭个...

400电话办理有何价值?

在市场竞争如此激烈的情况下，办理400电话成为一条新的竞争方式越来越多的企业办理...

python+selenium爬取微博热搜存入Mysql的实现方法

目录使用的库一：得到数据二：链接数据库最终的效果废话不多少，直接上图这里可以清楚的看到，数据库里包含了日期，内容，和网站link 下面我们来分析怎么实现使用的库 impython+selenium,爬取,微博,...

© 2016-2020 巨人网络通讯版权所有

《增值电信业务经营许可证》苏ICP备15040257号-8

python+selenium爬取微博热搜存入Mysql的实现方法 python+selenium,爬取,微博,