返回顶部
首页 > 资讯 > 后端开发 > Python >学习爬虫的第一天
  • 459
分享到

学习爬虫的第一天

爬虫 2023-01-31 00:01:54 459人浏览 独家记忆

Python 官方文档:入门教程 => 点击学习

摘要

爬虫是什么? 网络就如同蜘蛛网,而数据相当于里面的节点,爬虫如同蜘蛛,通过节点去获取蜘蛛网上的内容,获取想要的数据信息 获取网页数据方式: 1、浏览器访问——下载网页数据 2、模拟浏览器对网页进行访问——解析数据——将所需要的内容保存在本

爬虫是什么?

网络就如同蜘蛛网,而数据相当于里面的节点,爬虫如同蜘蛛,通过节点去获取蜘蛛网上的内容,获取想要的数据信息

获取网页数据方式:

1、浏览器访问——下载网页数据

2、模拟浏览器对网页进行访问——解析数据——将所需要的内容保存在本地

其中第二种方式就是爬虫的整体流程

 

首先先了解下关于网页必备知识

https和http的区别?

Http:明文显示,端口号为80

https:进行加密,添加数字证书,端口号为443

 

网络请求方式

GET

POST

PUT

HEAD

DELETE

PATCH

简单说下GET和POST区别

GET请求:HTPP默认的请求方式是GET;

GET请求的特点:

*没有请求体,携带数据保存在URL后面

*GET请求携带的参数必须在4k之内

*GET请求的携带的数据由于封装在URL后面,所以会暴露在浏览器地址栏中

 

POST请求的特点

*有请求体,数据保存在请求体中

*上传提交的数据可以无限大

*请求体中如果存在中文,会使用URL编码!

 第一次写博客,过程不太熟悉,望大神们多加指导2019-05-23

--结束END--

本文标题: 学习爬虫的第一天

本文链接: https://lsjlt.com/news/182429.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

猜你喜欢
  • 学习爬虫的第一天
    爬虫是什么? 网络就如同蜘蛛网,而数据相当于里面的节点,爬虫如同蜘蛛,通过节点去获取蜘蛛网上的内容,获取想要的数据信息 获取网页数据方式: 1、浏览器访问——下载网页数据 2、模拟浏览器对网页进行访问——解析数据——将所需要的内容保存在本...
    99+
    2023-01-31
    爬虫
  • python爬虫第一天
    简介          1:组成:爬虫节点,控制节点和资源库。        控制节点,也叫中央控制器,主要负责根据url地址分配线程,并调用爬虫节点进行具体的爬行。        爬虫节点会按照具体的算法,对网页进行具体的爬行,主要...
    99+
    2023-01-30
    爬虫 python
  • 爬虫学习之第一章网络请求
    爬虫的实际例子: 搜索引擎(百度、谷歌、360搜索等)。 伯乐在线。 惠惠购物助手。 数据分析与研究(数据冰山知乎专栏)。 抢票软件等。 什么是网络爬虫: 通俗理解:爬虫是一个模拟人类请求网站行为的程序。可以自动请求网页、并数据...
    99+
    2023-01-31
    爬虫 网络
  • 爬虫学习之第四章爬虫进阶之多线程爬虫
    有些时候,比如下载图片,因为下载图片是一个耗时的操作。如果采用之前那种同步的方式下载。那效率肯会特别慢。这时候我们就可以考虑使用多线程的方式来下载图片。 多线程介绍: 多线程是为了同步完成多项任务,通过提高资源使用效率来提高系统的效率...
    99+
    2023-01-31
    爬虫 进阶 第四章
  • python爬虫第六天
        今天继续学习一些实战爬虫   链接爬虫实战       要求:把一个网页里所有的链接地址提取出来     思路:(1)确定爬取的入口链接               (2)构建提取链接的正则表达式            ...
    99+
    2023-01-30
    爬虫 第六天 python
  • Python爬虫第二天
    Python爬虫第二天   超时设置         有时候访问网页时长时间未响应,系统就会判断网页超时,无法打开网页。如果需要自己设置超时时间则:             通过urlopen()打开网页时使用timeout字段设置 i...
    99+
    2023-01-30
    爬虫 第二天 Python
  • python爬虫第四天
        昨天学到了正则表达式基础知识 :原子 今天开始学习第二个基础知识:元字符 元字符     就是正则表达式中含有特殊含义的一些字符 常见的元字符及含义   符号 含义 . 匹配除换行符以外 的任意字...
    99+
    2023-01-30
    爬虫 第四天 python
  • python爬虫第五天
            cookie           我们访问网页是通过http协议进行的,而http协议是一个无状态协议(无法维持会话之间的状态),比如我们登录一个网站成功后访问另一个网页,那么登录状态就会消失,十分不方便。而我们可以通过C...
    99+
    2023-01-30
    爬虫 第五天 python
  • Python爬虫学习教程:天猫商品数据爬虫
    天猫商品数据爬虫使用教程下载chrome浏览器查看chrome浏览器的版本号,下载对应版本号的chromedriver驱动pip安装下列包pip install seleniumpip install pyquery登录微博,并通过微博绑定...
    99+
    2023-06-02
  • 爬虫学习
    Jupyter环境安装 安装Anaconda(集成环境), 安装成功后能够提供一种基于浏览器的可视化工具 ---Jupyter. 什么是jupyter notebook: Jupyter Notebook是以网页的形式打开,可以在网页页面...
    99+
    2023-01-30
    爬虫
  • 我的python学习--第十一天
    上午:作业讲解bootstrap-multiselect插件sweetalert插件下午:datatables----表格插件datetimepicker----时间插件Validform----表单验证插件锁定用户禁止登录---...
    99+
    2023-01-31
    第十一天 python
  • 爬虫学习之第三章数据存储
    什么是json: JSON(JavaScript Object Notation, JS 对象标记) 是一种轻量级的数据交换格式。它基于 ECMAScript (w3c制定的js规范)的一个子集,采用完全独立于编程语言的文本格式来存...
    99+
    2023-01-31
    爬虫 第三章 数据存储
  • 学习python的第二十一天(loggi
    1.logging模块 用于程序的运行日志 1.初级 #首先程序运行分会出现5中情况 1.logging.info('info') #程序正常运行级别为10 2.logging.debug('debug') #程序调试...
    99+
    2023-01-31
    python loggi
  • 学习python的第二十一天(hashl
    1.hashlib模块(文件传输中将传输内容用指定算法进行处理) hash是一种算法(Python3.版本里使用hashlib模块代替了md5模块和sha模块,主要提供 SHA1、SHA224、SHA256、SHA384、SHA512、...
    99+
    2023-01-31
    python hashl
  • 我的python学习--第十四天(一)
    一、运维管理系统(基于Flask)回顾1、权限控制  通过session实现权限控制,session是一个全局字典,当用户登录时,可以获取到用户的用户名,通过查找数据库获取用户的权限保存进session中,在每次页面跳转时同过查询sessi...
    99+
    2023-01-31
    第十四天 python
  • Python学习笔记:第一天python
    目录 1. python简介 2. python的安装 3. 编写第一个helloword 4. 变量和常量 5. 数据...
    99+
    2023-01-30
    学习笔记 Python python
  • 『爬虫』学习记录
    ## 在学习爬虫中遇到很多坑,写出来供道友参考 出现诸如以下错误     ModuleNotFoundError: No module named 'js2xml'     NameError: name 'js2xml' is no...
    99+
    2023-01-31
    爬虫
  • 【python爬虫学习 】python
    pip 安装 pip install scrapy 可能的问题: 问题/解决:error: Microsoft Visual C++ 14.0 is required. 实例demo教程 中文教程文档 第一步:创建项目目录 ...
    99+
    2023-01-31
    爬虫 python
  • 学习《简明Python教程》第一天
    第一天开始学习python,我自己会坚持的…… 做学习笔记为自己更好的复习,所做的一切若能带给像我一样刚刚入门朋友更大的方便, 我会很高兴……,如果有疏漏之处,请各位GGJJ提出指正,本人将不胜感激!   1、启动python带提示符的解释...
    99+
    2023-01-31
    简明 教程 Python
  • python学习心得-第一天-作业
    python学习第一天作业作业1用户输入帐号密码进行登陆用户信息保存在文件内用户密码输入错误三次后锁定用户代码:#__author__ = 'leslie' #-*-coding:utf-8-*- # #1. 用户输入帐号密码进行登陆 #2...
    99+
    2023-01-31
    作业 学习心得 python
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作