扫码关注官方微信

扫码下载APP

返回顶部

首页 > 资讯 > 后端开发 > Python >01_爬虫的基本概念和流程

635

0

分享到

01_爬虫的基本概念和流程

爬虫基本概念流程 2023-01-31 00:01:25 635人浏览八月长安

Python 官方文档：入门教程 => 点击学习

摘要

为什么我们要学习爬虫？学习爬虫有什么意义？进行数据分析，可以爬取网站上面的数据，来进行数据分析我们现在身处大数据时代，大数据的数据是怎么来的？爬虫来获取（方法之一）比如微博的微指数可以看热词的趋势从官方下载利用爬虫

为什么我们要学习 爬虫？学习爬虫有什么意义？

进行数据分析，可以爬取网站上面的数据，来进行数据分析
我们现在身处大数据时代，大数据的数据是怎么来的？
- 爬虫来获取（方法之一）
  - 比如微博的微指数可以看热词的趋势
- 从官方下载
  - 利用爬虫下载
- 买数据
- 很多网页会通过cookie来获取用户的浏览信息，然后保存到后台形成大数据
学完爬虫把爬取到的内容直接呈现出来
- 做成新闻网页等等
- 视频网页等等
- 音乐app网页等
其他用途
- 12306抢票
- 微信公众号的爬取
- 短信轰炸
- 网络上的投票

爬虫的定义是什么呢？

网络爬虫又叫网页蜘蛛，网络机器人
- 模仿客户端发送网络请求，接受请求响应
- 按照一定的规则，自动地抓取互联网信息的程序
- 原则上，只要是浏览器能做的事，爬虫都能做
爬虫一般分为哪几类？
- 通用爬虫
  - 搜素引擎的爬虫
- 聚焦爬虫
  - 针对特定引擎特定网站的爬虫
  - 我们重点写的是聚焦爬虫

爬虫的合法性

什么是robots协议？
- 通过网站的robots协议告诉搜索引擎哪些网页可以抓取哪些不可以抓取
- 一般在当前网站的根目录里的/robots.txt
- 是道德层面上的，如果爬取的数据只是个人使用，那还好
  - 不过最好还是遵守
如果是个人分析所用，不泄漏转载合法
如果是真实数据，比如营业地址，电话清单等，合法
- 但如果是黑客手段获取的某公司人员的个人信息，这个不好了
如果是原创作品，最好不要转载

聚焦爬虫的基本流程是什么？

首先准备我们要提取的url_list
- 然后我们发送请求获取响应
- 从响应里面提取我们要的数据
  - 把数据提取出来
  - 把下一步要进行发送请求的url提取出来
    - 重复1-3
- 把数据保存到数据库，或者导出为csv等格式的文件

您可能感兴趣的文档:

--结束END--

本文标题: 01_爬虫的基本概念和流程

本文链接: https://lsjlt.com/news/182680.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

猜你喜欢

01_爬虫的基本概念和流程

为什么我们要学习爬虫？学习爬虫有什么意义？进行数据分析，可以爬取网站上面的数据，来进行数据分析我们现在身处大数据时代，大数据的数据是怎么来的？爬虫来获取（方法之一）比如微博的微指数可以看热词的趋势从官方下载利用爬虫...

99+

2023-01-31

爬虫基本概念流程
Python爬虫-01：爬虫的概念及分类

目录 # 1. 为什么要爬虫 2. 什么是爬虫？ 3. 爬虫如何抓取网页数据？ # 4. Python爬虫的优势？ ...

99+

2023-01-30

爬虫概念 Python
介绍GitLab流程的基本概念和工作原理

GitLab是一种基于网络的Git存储库管理工具。它支持一系列功能，包括合并请求、问题跟踪、自动构建和持续集成等。在开发团队中，GitLab通常用来管理源代码。本文将介绍GitLab流程的基本概念和工作原理。GitLab流程简介GitLab...

99+

2023-10-22
入门指南：掌握Go语言实现爬虫的基本概念

快速上手：学习Go语言实现爬虫的基础知识，需要具体代码示例概述随着互联网的飞速发展，信息量巨大且不断增长，如何从海量数据中获取有用的信息成为一项关键任务。爬虫作为一种自动化数据获取工具，非常受到开发者的关注...

99+

2024-01-30

Go语言爬虫快速上手 HTML元素
RBO和CBO的基本概念

转自潇湘隐者出处：http://www.cnblogs.com/kerrycode/p/3842215.html Oracle数据库中的优化器又叫查询优化器（Query Optimizer）。它是S...

99+

2024-04-02
MySQL的基本概念和作用

下面一起来了解下MySQL的基本概念和作用，相信大家看完肯定会受益匪浅，文字在精不在多，希望MySQL的基本概念和作用这篇短内容是你想要的。 ...

99+

2024-04-02
Nginx的基本概念和原理

目录一、Nginx基本概念二、反向代理三、负载均衡四、动静分离五、原理六、worker如何工作一、Nginx基本概念 (engine x)是一个高性能的HTTP和反向代理web服务器...

99+

2024-04-02
Hive的基本概念

这篇文章主要介绍“Hive的基本概念”，在日常操作中，相信很多人在Hive的基本概念问题上存在疑惑，小编查阅了各式资料，整理出简单好用的操作方法，希望对大家解答”Hive的基本概念”的疑惑有所帮助！接下来，...

99+

2024-04-02
Mysql的基本概念

一 . Mysql 的基本概念 1、数据（data）描述事物的符号记录包括数字文字图形图像声音档案记录等以记录形式按同意的格式进行存储 2、表将不同的记录组织在一起用来存储具体数据 3、数据库 ...

99+

2023-09-20

mysql 数据库
MQ的基本概念

本篇内容介绍了“MQ的基本概念”的有关知识，在实际案例的操作过程中，不少人都会遇到这样的困境，接下来就让小编带领大家学习一下如何处理这些情况吧！希望大家仔细阅读，能够学有所成！对象(objects) &nb...

99+

2023-06-04
DOS的基本概念

本篇内容介绍了“DOS的基本概念”的有关知识，在实际案例的操作过程中，不少人都会遇到这样的困境，接下来就让小编带领大家学习一下如何处理这些情况吧！希望大家仔细阅读，能够学有所成！ DOS是最基本的操作系统...

99+

2023-06-09
influxdb 基本概念和操作

数据格式在 InfluxDB 中，我们可以粗略的将要存入的一条数据看作一个虚拟的 key 和其对应的 value(field value)。格式如下： 1 cpu_usage,host=serve...

99+

2019-08-17

influxdb 基本概念和操作
Python进程池基本概念

目录一、python进程池二、进程池如何使用？申请（）apply_async地图（）map_async()close()终端（）加入（）三、代码实列四、进程池中的进程和一般的进程有什...

99+

2024-04-02
Java的对象和类基本概念

这篇文章主要讲解了“Java的对象和类基本概念”，文中的讲解内容简单清晰，易于学习与理解，下面请大家跟着小编的思路慢慢深入，一起来研究和学习“Java的对象和类基本概念”吧！对象：对象是类的一个实例（对象不是找个女朋友），有状态和行为。例如...

99+

2023-06-02
c++类和对象基本概念

目录什么是类？什么是对象？类的定义创建对象成员访问（初始化）总结什么是类？一系列事物的抽象，对于c++而言，万事万物都可以是类。类包括：属性+行为属性：事物特征->数据类...

99+

2024-04-02
爬虫的基本原理

爬虫是什么如果我们把互联网比作一张大的蜘蛛网，数据便是存放于蜘蛛网的各个节点，而爬虫就是一只小蜘蛛，沿着网络抓取自己的猎物（数据）爬虫指的是：向网站发起请求，获取资源后分析并提取有用数据的程序；从技术层面来说就是通过程序模拟浏览器请求站点...

99+

2023-01-30

爬虫基本原理
MySQL的基本概念和常用命令

这篇文章主要讲解了“MySQL的基本概念和常用命令”，文中的讲解内容简单清晰，易于学习与理解，下面请大家跟着小编的思路慢慢深入，一起来研究和学习“MySQL的基本概念和常用命令”吧！ 1 MySQL简介 ...

99+

2024-04-02
云计算的概念和基本原理

本篇内容主要讲解“云计算的概念和基本原理”，感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷，实用性强。下面就让小编来带大家学习“云计算的概念和基本原理”吧!1云计算的概念云计算的定义众多，目前广为认同的一点是，云计算是分布式处理、并行处...

99+

2023-06-03
Golang数组的基本概念和定义

Golang数组的基本概念和定义在Golang中，数组（Array）是一种定长且类型相同的数据结构，用来存储相同类型的元素序列。数组是值类型，通过索引访问元素，索引从0开始。在Gol...

99+

2024-03-03

golang 数组定义
axios概念介绍和基本使用

目录简介使用axios配置对象常用的配置项：默认配置axios拦截器取消请求总结简介本文主要讲解axios的概念和基本使用。 axios时目前最流行的ajax封装库之一...

99+

2024-04-02

软考高级职称资格查询

热门wiki

mysql删除数据恢复

mysql删表能回滚吗

mysql找回删除的表

mysql不小心删除了表

mysql不小心把表删了怎么恢复数据

mysql数据表删除后能恢复么

mysql误删表数据恢复

mysql误删表恢复

mysql删除表怎么恢复

近期文章

python写一段编程，祝福高三考生旗开得胜

PythonOOP 的力量：封装与抽象类的超级英雄联盟

Python 代码的建筑师：封装与抽象类的蓝图和构建工具

PythonOOP 的航海图：封装与抽象类的船帆和指南针

Python 封装与抽象类的实验室：试验和发现的乐趣

Python 代码的可读性之钥：封装与抽象类的解读指南

PythonOOP 的秘密花园：封装与抽象类的花卉盛宴

Python 代码的组织大师：封装与抽象类的秩序之道

Python 封装与抽象类的终极秘籍：通往对象导向编程之路

PythonOOP 的宝藏：封装与抽象类的寻宝之旅

推荐阅读

python分析数据的方法是什么

2024-03-01

如何使用Python实现抽奖小程序

2024-03-01

python copy函数的作用是什么

2024-03-01

python ffmpeg模块怎么安装和使用

2024-02-29

python进程池创建队列的方法是什么

2024-02-29

python无法运行文件的原因有哪些

2024-02-29

python can't open file报错怎么解决

2024-02-29

python keyerror错误怎么解决

2024-02-29

python字符串处理与应用的方法有哪些

2024-02-29

python全局变量如何定义

2024-02-29

热门问答

1

回答

如何调试操作系统的错误？
操作系统

2023-11-15发布

1

回答

操作系统中的I/O系统是如何实现的？
操作系统

2023-11-15发布

1

回答

如何实现操作系统的内存管理？
操作系统

2023-11-15发布

1

回答

什么是虚拟内存，它对操作系统有什么影响？
操作系统

2023-11-15发布

1

回答

ASP中的MVC架构和WebForms架构有什么区别和使用场景？
ASP.NET

2023-11-15发布

1

回答

ASP中的数据验证和数据校验有什么不同？
ASP.NET

2023-11-15发布

1

回答

ASP中的ADO对象和DAO对象有什么区别和使用方法？
ASP.NET

2023-11-15发布

1

回答

Node.js中的包管理器NPM是什么？如何使用它进行依赖管理？
node.js

2023-11-15发布

1

回答

Vue.js中的动态组件是什么？如何使用它来动态渲染组件？
VUE

2023-11-15发布

1

回答

如何使用Vue.js实现懒加载和预加载？
VUE

2023-11-15发布

编程网，编程工程师的家园，是目前国内优秀的开源技术社区之一，形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容，为IT开发者提供了一个发现、使用、并交流开源技术的平台。

官方手机版
微信公众号
商务合作

Powered by 编程网 | Copyright © 2018-2023, 版权所有. | 网站地图 | 苏ICP备17033115号