返回顶部
首页 > 资讯 > 后端开发 > Python >Python网络爬虫举例分析
  • 161
分享到

Python网络爬虫举例分析

2023-06-02 02:06:20 161人浏览 薄情痞子

Python 官方文档:入门教程 => 点击学习

摘要

这篇文章主要讲解了“python网络爬虫举例分析”,文中的讲解内容简单清晰,易于学习与理解,下面请大家跟着小编的思路慢慢深入,一起来研究和学习“Python网络爬虫举例分析”吧!先来看一段简单的代码。import requests

这篇文章主要讲解了“python网络爬虫举例分析”,文中的讲解内容简单清晰,易于学习与理解,下面请大家跟着小编的思路慢慢深入,一起来研究和学习“Python网络爬虫举例分析”吧!

先来看一段简单的代码。

import requests #导入requests包url = 'https://www.cnblogs.com/LexMoon/'strhtml = requests.get(url) #get方式获取网页数据print(strhtml.text)

首先是import requests来导入网络请求相关的包,然后定义一个字符串url也就是目标网页,之后我们就要用导入的requests包来请求这个网页的内容。

这里用了requests.get(url),这个get并不是拿取的那个get,而是一种关于网络请求的方法。

网络请求的方法有很多,最常见的有get,post,其它如put,delete你几乎不会见到。

requests.get(url)就是向url这个网页发送get请求(request),然后会返回一个结果,也就是这次请求的响应信息。

响应信息中分为响应头和响应内容。

响应头就是你这次访问是不是成功了,返回给你的是什么类型的数据,还有很多一些。

响应内容中就是你获得的网页源码了。

好了,这样你就算是入门python爬虫了,但是还是有很多问题。

get和post请求有什么区别?

为什么有些网页我爬取到了,里面却没有我想要的数据?

为什么有些网站我爬下来的内容和我真实看到的网站内容不一样?

get和post请求有什么区别?

get和post的区别主要在于参数的位置,比如说有一个需要登录用户的网站,当我们点击登录之后,账号密码应该放在哪里。

get请求最直观的体现就是请求的参数就放在了URL中。

比如说你百度Python这个关键字,就可以发现它的URL如下:

Https://www.baidu.com/s?wd=Python&rsv_spt=1

这里面的dw=Python就是参数之一了,get请求的参数用?开始,用&分隔。

如果我们需要输入密码的网站用了get请求,我们的个人信息不是很容易暴露吗,所以就需要post请求了。

在post请求中,参数会放在请求体内。

比如说下面是我登录W3C网站时的请求,可以看到Request Method是post方式。

Python网络爬虫举例分析

在请求的下面还有我们发送的登录信息,里面就是加密过后的账号密码,发送给对方服务器来检验的。

Python网络爬虫举例分析

为什么有些网页我爬取到了,里面却没有我想要的数据?

我们的爬虫有时候可能爬下来一个网站,在查看里面数据的时候会发现,爬下来的是目标网页,但是里面我们想要的数据却没有。

这个问题大多数发生在目标数据是那些列表型的网页,比如说前几天班上一个同学问了我一个问题,他在爬携程的航班信息时,爬下来的网页除了获得不了航班的信息,其他地方都可以拿到。

如下图:

Python网络爬虫举例分析

这是一个很常见的问题,因为他requests.get的时候,是去get的上面我放的那个URL地址,但是这个网页虽然是这个地址,但是他里面的数据却不是这个地址。

听起来很像很难,但是从携程这个网站的设计人的角度来说,加载的这部分航班列表信息可能很庞大,如果你是直接放在这个网页里面,我们用户打开这个网页可能需要很久,以至于认为网页挂了然后关闭,所以设计者在这个URL请求中只放了主体框架,让用户很快进入网页中,而主要的航班数据则是之后再加载,这样用户就不会因为等待很长时间而退出了。

Python网络爬虫举例分析

说到底怎么做是为了用户体验,那么我们应该怎么解决这个问题呢?

如果你学过前端,你应该知道ajax异步请求,不知道也没事,毕竟我们这里不是在说前端技术。

我们只需要知道我们最开始请求的https://flights.ctrip.com/itinerary/oneway/cgq-bjs?date=2019-09-14这个网页中有一段js脚本,在这个网页请求到之后会去执行,而这段脚本的目的就是去请求我们要爬的航班信息。

这时候我们可以打开浏览器的控制台,推荐使用谷歌或者火狐浏览器,按F进入坦克,不,按F12进入浏览器控制台,然后点击NetWork。

在这里我们就可以看到这个网页中发生的所有网络请求和响应了。

Python网络爬虫举例分析

在这里面我们可以找到请求航班信息的其实是https://flights.ctrip.com/itinerary/api/12808/products这个URL。

Python网络爬虫举例分析

为什么有些网站我爬下来的内容和我真实看到的网站内容不一样?

最后一个问题就是为什么有些网站我爬下来的内容和我真实看到的网站内容不一样?

这个的主要原因是,你的爬虫没有登录。

就像我们平常浏览网页,有些信息需要登录才能访问,爬虫也是如此。

这就涉及到了一个很重要的概念,我们的平常观看网页是基于Http请求的,而Http是一种无状态的请求。

什么是无状态? 你可以理解为它不认人,也就是说你的请求到了对方服务器那里,对方服务器是不知道你到底是谁。

既然如此,我们登录之后为什么还可以长时间继续访问这个网页呢?

这是因为Http虽然是无状态的,但是对方服务器却给我们安排了身份证,也就是cookie。

在我们第一次进入这个网页时,如果之前没有访问过,服务器就会给我们一个cookie,之后我们在这个网页上的任何请求操作,都要把cookie放进去。这样服务器就可以根据cookie来辨识我们是谁了。

Python网络爬虫举例分析

比如知乎里面就可以找到相关的cookie。

对于这类网站,我们直接从浏览器中拿到已有的cookie放进代码中使用,requests.get(url,cookies="aidnwinfawinf"),也可以让爬虫去模拟登录这个网站来拿到cookie。

感谢各位的阅读,以上就是“Python网络爬虫举例分析”的内容了,经过本文的学习后,相信大家对Python网络爬虫举例分析这一问题有了更深刻的体会,具体使用情况还需要大家实践验证。这里是编程网,小编将为大家推送更多相关知识点的文章,欢迎关注!

--结束END--

本文标题: Python网络爬虫举例分析

本文链接: https://lsjlt.com/news/228569.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

猜你喜欢
  • Python网络爬虫举例分析
    这篇文章主要讲解了“Python网络爬虫举例分析”,文中的讲解内容简单清晰,易于学习与理解,下面请大家跟着小编的思路慢慢深入,一起来研究和学习“Python网络爬虫举例分析”吧!先来看一段简单的代码。import requests...
    99+
    2023-06-02
  • Python爬虫数据举例分析
    本篇内容介绍了“Python爬虫数据举例分析”的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅读,能够学有所成!获取数据打开斗鱼直播界面,连续点击翻页Networ...
    99+
    2023-06-02
  • Python爬虫之网络请求实例分析
    本篇内容介绍了“Python爬虫之网络请求实例分析”的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅读,能够学有所成!1.IP代理某些网站会检测一段时间内某IP的...
    99+
    2023-06-30
  • Python爬虫案例分析
    本篇内容介绍了“Python爬虫案例分析”的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅读,能够学有所成! 一、论述这几个案例以前是给一些想进入Pyt...
    99+
    2023-06-17
  • Python爬虫实例分析
    今天小编给大家分享一下Python爬虫实例分析的相关知识点,内容详细,逻辑清晰,相信大部分人都还太了解这方面的知识,所以分享这篇文章给大家参考一下,希望大家阅读完这篇文章后有所收获,下面我们一起来了解一下吧。环境搭建既然用python,那么...
    99+
    2023-06-03
  • Python网络爬虫实例讲解
    聊一聊Python与网络爬虫。 1、爬虫的定义 爬虫:自动抓取互联网数据的程序。 2、爬虫的主要框架 爬虫程序的主要框架如上图所示,爬虫调度端通过URL管理器获取待爬取的URL链接,若URL管理器中存在待...
    99+
    2022-06-04
    爬虫 实例 网络
  • python写网络爬虫
    #!/usr/bin/evn python import re #导入正则表达式模块import urllib #导入urllib模块,读取页面与下载页面需要用到def getH...
    99+
    2023-01-31
    爬虫 网络 python
  • python之网络爬虫
    一、演绎自已的北爱         踏上北漂的航班,开始演奏了我自已的北京爱情故事二、爬虫11、网络爬虫的思路首先:指定一个url,然后打开这个url地址,读其中的内容。其次:从读取的内容中过滤关键字;这一步是关键,可以通过查看源代码的方式...
    99+
    2023-01-31
    爬虫 网络 python
  • 网络爬虫中反扒策略的示例分析
    小编给大家分享一下网络爬虫中反扒策略的示例分析,相信大部分人都还不怎么了解,因此分享这篇文章给大家参考一下,希望大家阅读完这篇文章后大有收获,下面让我们一起去了解一下吧!设置好header信息,不仅仅是UserAgent、Referer这两...
    99+
    2023-06-15
  • python爬虫中xpath实例分析
    这篇文章主要介绍“python爬虫中xpath实例分析”,在日常操作中,相信很多人在python爬虫中xpath实例分析问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法,希望对大家解答”python爬虫中xpath实例分析”的疑...
    99+
    2023-06-29
  • python网络爬虫实战
    目录一、概述二、原理三、爬虫分类1、传统爬虫2、聚焦爬虫3、通用网络爬虫(全网爬虫)四、网页抓取策略1、宽度优先搜索:2、深度优先搜索:3、最佳优先搜索:4、反向链接数策略:5、Pa...
    99+
    2024-04-02
  • Python网络爬虫实战案例之:7000
    一、前言 本文是《Python开发实战案例之网络爬虫》的第三部分:7000本电子书下载网络爬虫开发实战详解。配套视频课程详见51CTO学院请添加链接描述。 二、章节目录 3.1 业务流程3.2 页面结构分析:目录页3.3 页面结构分析:详情...
    99+
    2023-01-31
    爬虫 实战 案例
  • 5.网络爬虫——Xpath解析
    网络爬虫——Xpath解析 Xpath简介Xpath解析节点选择路径表达式谓语未知节点 Xpath实战演示豆果美食实战获取数据源代码 前言: 📝​&#x...
    99+
    2023-09-01
    爬虫 python 开发语言 云原生
  • Python Ajax爬虫方法案例分析
    今天小编给大家分享一下Python Ajax爬虫方法案例分析的相关知识点,内容详细,逻辑清晰,相信大部分人都还太了解这方面的知识,所以分享这篇文章给大家参考一下,希望大家阅读完这篇文章后有所收获,下面我们一起来了解一下吧。1. 抓...
    99+
    2023-06-29
  • python爬虫之三:解析网络报文xml
    本节主要是讲解在项目中怎么解析获取的xml报文并获取相关字段。 xml解析第三方库学习地址:http://www.runoob.com/python/python-xml.html xml文件如下: <xml versio...
    99+
    2023-01-31
    报文 爬虫 之三
  • ChatGPT爬虫实例分析
    本篇内容主要讲解“ChatGPT爬虫实例分析”,感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷,实用性强。下面就让小编来带大家学习“ChatGPT爬虫实例分析”吧!思考问题域我要写一个爬虫,把ChatGPT上我的数据都爬下来,首先想想我...
    99+
    2023-07-05
  • Python爬虫之网络请求
    目录1.IP代理2.Cookie3.异常处理 1.IP代理 某些网站会检测一段时间内某IP的访问次数,若访问次数过多会禁止访问,这时需要设置一些代理服务器,每隔一段时间换一...
    99+
    2024-04-02
  • python爬虫#网络请求request
    中文文档 http://docs.python-requests.org/zh_CN/latest/user/quickstart.html requests库 虽然Python的标准库中 urllib模块已经包含了平常我们使用的大多数功...
    99+
    2023-01-30
    爬虫 网络 python
  • Python网络爬虫之获取网络数据
    目录使用 Python 获取网络数据编写爬虫代码使用 IP 代理总结Python 语言的优势在于其功能强大,可以用于网络数据采集、数据分析等各种应用场景。本篇文章将介绍如何使用 Py...
    99+
    2023-05-18
    Python获取网络数据 Python爬取数据
  • Python爬虫基础入门实例分析
    这篇文章主要介绍“Python爬虫基础入门实例分析”的相关知识,小编通过实际案例向大家展示操作过程,操作方法简单快捷,实用性强,希望这篇“Python爬虫基础入门实例分析”文章能帮助大家解决问题。      &...
    99+
    2023-06-27
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作