• 企业400电话
  • 微网小程序
  • AI电话机器人
  • 电商代运营
  • 全 部 栏 目

    企业400电话 网络优化推广 AI电话机器人 呼叫中心 网站建设 商标✡知产 微网小程序 电商运营 彩铃•短信 增值拓展业务
    学习Python爬虫前必掌握知识点

    常见的协议

    http和https
    http协议:
    超文本传输协议,是一个发布和接受HTML页面的方法,端口是80

    https 协议:http协议的加密版本,在HTTP下加上了ssl层,端口是443

    下面访问的是美团的官网:
    可以看到端口是443

    URL和RUI

    常见的请求方式

    http协议规定了浏览器与服务器进行数据交互过程中必须要选择一种交互方式
    在http协议中定义了8中请求方式,常见的是get和post请求

    get请求: 一般只从服务器获取数据下来,并不会对服务器资源产生任何的影响。


    请求的时候关注:

    url请求方式请求头

    post请求: 向服务器发送数据(登陆),上传文件等,会对服务器资源产生影响的时候,会使用post请求。

    不过有些网站做了反爬虫机制,你去查看信息,也是使用post请求,所以我们写爬虫的时候,一定要分析网站。

    常见的请求头参数:

    http协议中,向服务器发送一个请求,数据分为三部分:

    常见的请求头参数:

    常见的相应状态码

    HTTP的请求相应过程

    使用浏览器进行网站分析

    我们要分析的网站为: movie.douban.com

    在页面上的呈现的内容,在Elements都会有相应的元素。

    headers 头部信息

     session 与cookie

    session代表的是服务器和浏览器的一次会话过程
    session 是一种服务器端的机制,用来存储特定用户的会话所需要的信息,保存在内存,缓存,或者数据库中。

    cookie
    cooke是由服务器端生成后发送给客户端,cookie是保存在客户端的

    cookie原理:
    1) 创建cookie
    2) 设置存储cookie
    3) 发送cookie
    4) 读取cookie

    到此这篇关于学习Python爬虫前,需要先掌握哪些知识内容的文章就介绍到这了,更多相关学习Python爬虫掌握知识内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

    您可能感兴趣的文章:
    • 利用Python网络爬虫爬取各大音乐评论的代码
    • 使用Selenium实现微博爬虫(预登录、展开全文、翻页)
    • 一文读懂python Scrapy爬虫框架
    • Python爬虫分析微博热搜关键词的实现代码
    • 用python爬虫爬取CSDN博主信息
    上一篇:Python实现学生管理系统的代码(JSON模块)
    下一篇:PyCharm搭建一劳永逸的开发环境
  • 相关文章
  • 

    © 2016-2020 巨人网络通讯 版权所有

    《增值电信业务经营许可证》 苏ICP备15040257号-8

    学习Python爬虫前必掌握知识点 学习,Python,爬虫,前必,掌握,