返回顶部
首页 > 资讯 > 后端开发 > Python >01_爬虫的基本概念和流程
  • 635
分享到

01_爬虫的基本概念和流程

爬虫基本概念流程 2023-01-31 00:01:25 635人浏览 八月长安

Python 官方文档:入门教程 => 点击学习

摘要

为什么我们要学习爬虫?学习爬虫有什么意义? 进行数据分析,可以爬取网站上面的数据,来进行数据分析 我们现在身处大数据时代,大数据的数据是怎么来的? 爬虫来获取(方法之一) 比如微博的微指数可以看热词的趋势 从官方下载 利用爬虫

为什么我们要学习爬虫?学习爬虫有什么意义?

  • 进行数据分析,可以爬取网站上面的数据,来进行数据分析
  • 我们现在身处大数据时代,大数据的数据是怎么来的?
    • 爬虫来获取(方法之一)
      • 比如微博的微指数可以看热词的趋势
    • 从官方下载
      • 利用爬虫下载
    • 买数据
    • 很多网页会通过cookie来获取用户的浏览信息,然后保存到后台形成大数据
  • 学完爬虫把爬取到的内容直接呈现出来
    • 做成新闻网页等等
    • 视频网页等等
    • 音乐app网页等
  • 其他用途
    • 12306抢票
    • 微信公众号的爬取
    • 短信轰炸
    • 网络上的投票

爬虫的定义是什么呢?

  • 网络爬虫又叫网页蜘蛛,网络机器人
    • 模仿客户端发送网络请求,接受请求响应
    • 按照一定的规则,自动地抓取互联网信息的程序
    • 原则上,只要是浏览器能做的事,爬虫都能做
  • 爬虫一般分为哪几类?
    • 通用爬虫
      • 搜素引擎的爬虫
    • 聚焦爬虫
      • 针对特定引擎特定网站的爬虫
      • 我们重点写的是聚焦爬虫

爬虫的合法性

  • 什么是robots协议?
    • 通过网站的robots协议告诉搜索引擎哪些网页可以抓取哪些不可以抓取
    • 一般在当前网站的根目录里的/robots.txt
    • 是道德层面上的,如果爬取的数据只是个人使用,那还好
      • 不过最好还是遵守
  • 如果是个人分析所用,不泄漏转载 合法
  • 如果是真实数据,比如营业地址,电话清单等, 合法
    • 但如果是黑客手段获取的某公司人员的个人信息,这个不好了
  • 如果是原创作品,最好不要转载

聚焦爬虫的基本流程是什么?

  • 首先准备我们要提取的url_list
    • 然后我们发送请求获取响应
    • 从响应里面提取我们要的数据
      • 把数据提取出来
      • 把下一步要进行发送请求的url提取出来
        • 重复1-3
    • 把数据保存到数据库,或者导出为csv等格式的文件

--结束END--

本文标题: 01_爬虫的基本概念和流程

本文链接: https://lsjlt.com/news/182680.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

猜你喜欢
  • 01_爬虫的基本概念和流程
    为什么我们要学习爬虫?学习爬虫有什么意义? 进行数据分析,可以爬取网站上面的数据,来进行数据分析 我们现在身处大数据时代,大数据的数据是怎么来的? 爬虫来获取(方法之一) 比如微博的微指数可以看热词的趋势 从官方下载 利用爬虫...
    99+
    2023-01-31
    爬虫 基本概念 流程
  • Python爬虫-01:爬虫的概念及分类
    目录 # 1. 为什么要爬虫 2. 什么是爬虫? 3. 爬虫如何抓取网页数据? # 4. Python爬虫的优势? ...
    99+
    2023-01-30
    爬虫 概念 Python
  • 介绍GitLab流程的基本概念和工作原理
    GitLab是一种基于网络的Git存储库管理工具。它支持一系列功能,包括合并请求、问题跟踪、自动构建和持续集成等。在开发团队中,GitLab通常用来管理源代码。本文将介绍GitLab流程的基本概念和工作原理。GitLab流程简介GitLab...
    99+
    2023-10-22
  • 入门指南:掌握Go语言实现爬虫的基本概念
    快速上手:学习Go语言实现爬虫的基础知识,需要具体代码示例 概述随着互联网的飞速发展,信息量巨大且不断增长,如何从海量数据中获取有用的信息成为一项关键任务。爬虫作为一种自动化数据获取工具,非常受到开发者的关注...
    99+
    2024-01-30
    Go语言 爬虫 快速上手 HTML元素
  • RBO和CBO的基本概念
    转自潇湘隐者 出处:http://www.cnblogs.com/kerrycode/p/3842215.html Oracle数据库中的优化器又叫查询优化器(Query Optimizer)。它是S...
    99+
    2024-04-02
  • MySQL的基本概念和作用
     下面一起来了解下MySQL的基本概念和作用,相信大家看完肯定会受益匪浅,文字在精不在多,希望MySQL的基本概念和作用这篇短内容是你想要的。       ...
    99+
    2024-04-02
  • Nginx的基本概念和原理
    目录一、Nginx基本概念二、反向代理三、负载均衡四、动静分离五、原理六、worker如何工作一、Nginx基本概念 (engine x)是一个高性能的HTTP和反向代理web服务器...
    99+
    2024-04-02
  • Hive的基本概念
    这篇文章主要介绍“Hive的基本概念”,在日常操作中,相信很多人在Hive的基本概念问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法,希望对大家解答”Hive的基本概念”的疑惑有所帮助!接下来,...
    99+
    2024-04-02
  • Mysql的基本概念
    一 . Mysql 的基本概念 1、数据(data) 描述事物的符号记录包括数字文字图形图像声音档案记录等以记录形式按同意的格式进行存储 2、表 将不同的记录组织在一起用来存储具体数据 3、数据库 ...
    99+
    2023-09-20
    mysql 数据库
  • MQ的基本概念
    本篇内容介绍了“MQ的基本概念”的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅读,能够学有所成!对象(objects)   &nb...
    99+
    2023-06-04
  • DOS的基本概念
    本篇内容介绍了“DOS的基本概念”的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅读,能够学有所成!    DOS是最基本的操作系统...
    99+
    2023-06-09
  • influxdb 基本概念和操作
    数据格式 在 InfluxDB 中,我们可以粗略的将要存入的一条数据看作一个虚拟的 key 和其对应的 value(field value)。格式如下: 1 cpu_usage,host=serve...
    99+
    2019-08-17
    influxdb 基本概念和操作
  • Python进程池基本概念
    目录一、python进程池二、进程池如何使用?申请()apply_async地图()map_async()close()终端()加入()三、代码实列四、进程池中的进程和一般的进程有什...
    99+
    2024-04-02
  • Java的对象和类基本概念
    这篇文章主要讲解了“Java的对象和类基本概念”,文中的讲解内容简单清晰,易于学习与理解,下面请大家跟着小编的思路慢慢深入,一起来研究和学习“Java的对象和类基本概念”吧!对象:对象是类的一个实例(对象不是找个女朋友),有状态和行为。例如...
    99+
    2023-06-02
  • c++类和对象基本概念
    目录什么是类?什么是对象?类的定义创建对象成员访问(初始化)总结什么是类? 一系列事物的抽象,对于c++而言,万事万物都可以是类。 类包括:属性+行为 属性:事物特征->数据类...
    99+
    2024-04-02
  • 爬虫的基本原理
    爬虫是什么如果我们把互联网比作一张大的蜘蛛网,数据便是存放于蜘蛛网的各个节点,而爬虫就是一只小蜘蛛,沿着网络抓取自己的猎物(数据)爬虫指的是:向网站发起请求,获取资源后分析并提取有用数据的程序;从技术层面来说就是 通过程序模拟浏览器请求站点...
    99+
    2023-01-30
    爬虫 基本原理
  • MySQL的基本概念和常用命令
    这篇文章主要讲解了“MySQL的基本概念和常用命令”,文中的讲解内容简单清晰,易于学习与理解,下面请大家跟着小编的思路慢慢深入,一起来研究和学习“MySQL的基本概念和常用命令”吧! 1 MySQL简介 ...
    99+
    2024-04-02
  • 云计算的概念和基本原理
    本篇内容主要讲解“云计算的概念和基本原理”,感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷,实用性强。下面就让小编来带大家学习“云计算的概念和基本原理”吧!1云计算的概念云计算的定义众多,目前广为认同的一点是,云计算是分布式处理、并行处...
    99+
    2023-06-03
  • Golang数组的基本概念和定义
    Golang数组的基本概念和定义 在Golang中,数组(Array)是一种定长且类型相同的数据结构,用来存储相同类型的元素序列。数组是值类型,通过索引访问元素,索引从0开始。在Gol...
    99+
    2024-03-03
    golang 数组 定义
  • axios概念介绍和基本使用
    目录简介使用axios配置对象常用的配置项:默认配置axios拦截器取消请求总结 简介 本文主要讲解axios的概念和基本使用。 axios时目前最流行的ajax封装库之一...
    99+
    2024-04-02
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作