返回顶部
首页 > 资讯 > 精选 >如何实现URL字段的解析
  • 910
分享到

如何实现URL字段的解析

2023-06-02 05:06:00 910人浏览 独家记忆
摘要

这期内容当中小编将会给大家带来有关如何实现URL字段的解析,文章内容丰富且以专业的角度为大家分析和叙述,阅读完这篇文章希望大家可以有所收获。1.修改爬取的目标地址我们知道如果想要爬取网站的数据需要在spiders文件中创建一个蜘蛛,创建后这

这期内容当中小编将会给大家带来有关如何实现URL字段的解析,文章内容丰富且以专业的角度为大家分析和叙述,阅读完这篇文章希望大家可以有所收获。

1.修改爬取的目标地址

我们知道如果想要爬取网站的数据需要在spiders文件中创建一个蜘蛛,创建后这个蜘蛛中会自动生成一个类,类名也是由蜘蛛名加Spider组成,如上一节中爬去csdn网站生成的:CsdnSpider类,这个类中的name也就是蜘蛛的名称,allowed_domains是允许爬取网站的域名,start_urls是需要爬取的目标网站的网址,如果需要更改爬取的目标页面,只需要修改start_urls就可以了;

import scrapyclass CsdnSpider(scrapy.Spider):    name = 'csdn'    allowed_domains = ['www.csdn.net']    start_urls = ['Http://www.csdn.net/']    def parse(self, response):        pass

2.解析标题的超链接a标签的跳转地址和标题内容

  • 那我们继续用csdn的今天推荐作为爬取信息,首先需要在CsdnSpider类中的parse(self,response)方法中使用response对象来对CSS选择器获取到的a元素的href值进行解析,如response.css('h3 a::attr(href)').extract(),这样就可以得到一个url地址的列表;

import scrapyclass CsdnSpider(scrapy.Spider):    name = 'csdn'    allowed_domains = ['www.csdn.net']    start_urls = ['http://www.csdn.net/']    def parse(self, response):       urls = response.css('.company_list .company_name a::attr(href)').extract()       print(urls)
  • 接着我们循环得到的列表,拿到每一个a标签的url地址,然后使用Request请求,需要传递两个参数,一个是url用于告诉我们接下来解析哪个页面,可以通过parse.urljoin()方法拼接页面链接,另一个是callback回调函数。

这个回调函数是我们自己定义的,也会传递一个response对象,通过这个response对象对css选择器获取的元素进行解析,这样我们就可以拿到每个解析页面的标题内容了;

import scrapyfrom scrapy.http import Requestfrom urllib import parseclass CsdnSpider(scrapy.Spider):    name = 'csdn'    allowed_domains = ['www.csdn.net']    start_urls = ['http://www.csdn.net/']    def parse(self, response):       # 获取url       urls = response.css('.company_list .company_name a::attr(href)').extract()       # print(urls)       # 解析页面       for url in urls:           yield Request(url = parse.urljoin(response.url, url), callback=self.parse_analyse, dont_filter=True)    # 回调函数    def parse_analyse(self, response):        title = response.css('.company_list .company_name a::text').extract_first()        print(title)

3.Request对象的介绍

  • class scrapy.http.Request(url[, callback, method='GET', headers, body, cookies, meta, encoding='utf-8',priority=0, dont_filter=False, errback]),一个request对象代表一个HTTP请求,通常由Spider产生,经Downloader执行从而产生一个Response;

  • url:用于请求的URL;

  • callback:指定一个回调函数,该回调函数以这个request是的response作为第一个参数,如果未指定callback则默认使用spider的parse()方法;

  • method: HTTP请求的方法,默认为GET;

  • headers:请求的头部;

  • body:请求的正文,可以是bytes或者str;

  • cookies:请求携带的cookie;

  • meta:指定Request.meta属性的初始值,如果给了该参数,dict将会浅拷贝;

  • encoding:请求的编码, 默认为utf-8;

  • priority:优先级,优先级越高,越先下载;

  • dont_filter:指定该请求是否被 Scheduler过滤,该参数可以使request重复使用;

  • errback:处理异常的回调函数;

上述就是小编为大家分享的如何实现URL字段的解析了,如果刚好有类似的疑惑,不妨参照上述分析进行理解。如果想知道更多相关知识,欢迎关注编程网精选频道。

--结束END--

本文标题: 如何实现URL字段的解析

本文链接: https://lsjlt.com/news/229038.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

猜你喜欢
  • 如何实现URL字段的解析
    这期内容当中小编将会给大家带来有关如何实现URL字段的解析,文章内容丰富且以专业的角度为大家分析和叙述,阅读完这篇文章希望大家可以有所收获。1.修改爬取的目标地址我们知道如果想要爬取网站的数据需要在spiders文件中创建一个蜘蛛,创建后这...
    99+
    2023-06-02
  • Django如何实现url反向解析
    这篇文章给大家分享的是有关Django如何实现url反向解析的内容。小编觉得挺实用的,因此分享给大家做个参考,一起跟随小编过来看看吧。1、代码中URL可以出现的位置一个是在HTML模板中,一个是在视图函数中:模板【HTML】中(1) <...
    99+
    2023-06-22
  • sql字段解析器的实现示例
    目录1. 解题思路2. 具体解析实现3. 单元测试用例:有一段sql语句,我们需要从中截取出所有字段部分,以便进行后续的类型推断或者别名字段抽取定义,请给出此解析方法。 想来很简单吧...
    99+
    2024-04-02
  • mysql如何实现字段求和
    这篇文章将为大家详细讲解有关mysql如何实现字段求和,小编觉得挺实用的,因此分享给大家做个参考,希望大家阅读完这篇文章后可以有所收获。 在mysql中,可以利用SUM()函数实...
    99+
    2024-04-02
  • redis如何实现字段查找
    redis实现字段查找的方法:redis是不可以对值进行搜索的,只可以对键进行搜索,也可以对键进行正则匹配的,例如:“name_zhangapeit, name_zhangsan, name_zhangziya”,搜索姓张的命令:get&n...
    99+
    2024-04-02
  • php如何实现数组转url字符串
    本文操作环境:windows10系统、php 7、thinkpad t480电脑。先给出一个数组:$data = array('name' => 'tom', 'sex' => 1...
    99+
    2020-09-19
    php 数组 url 字符串
  • CSS选择器如何实现字段
    这篇文章主要介绍CSS选择器如何实现字段,文中介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们一定要看完!根据上面所学的CSS基础语法知识,现在来实现字段的解析。首先还是解析标题。打开网页开发者工具,找到标题所对应的源代码。发现是在di...
    99+
    2023-06-08
  • php如何实现字段值相加
    本篇内容介绍了“php如何实现字段值相加”的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅读,能够学有所成!php实现字段值相加的的方法:1、使用array_co...
    99+
    2023-06-22
  • json解析后如何列出未知字段
    小伙伴们对Golang编程感兴趣吗?是否正在学习相关知识点?如果是,那么本文《json解析后如何列出未知字段》,就很适合你,本篇文章讲解的知识点主要包括。在之后的文章中也会多多分享相关知识点,希望对...
    99+
    2024-04-04
  • 基于Python-sqlparse的SQL字段血缘追踪解析实现
    目录 前言 一、字段血缘 1.区别字段 2.区别标识符序列 3.功能函数设定 二、字段血缘可视化 点关注,防走丢,如有纰漏之处,请留言指教,非常感谢 前言 SQL解析和血缘追踪的研究现在差不多可以告一段落了,从8月22日写HiveSQ...
    99+
    2023-09-04
    1024程序员节 数据库 mysql python sql
  • 如何通过一个注解实现MyBatis字段加解密
    目录简介模块使用方法配置项说明开源链接总结简介 mybatis-crypto 是一个基于 mybatis 插件机制实现的字段加解密组件,通过一个注解即可对敏感数据进行加解密处理。 支...
    99+
    2024-04-02
  • 如何实现Java中的static关键字解析
    这期内容当中小编将会给大家带来有关如何实现Java中的static关键字解析,文章内容丰富且以专业的角度为大家分析和叙述,阅读完这篇文章希望大家可以有所收获。static关键字是很多朋友在编写代码和阅读代码时碰到的比较难以理解的一个关键字,...
    99+
    2023-06-03
  • mybatis如何实现特殊字段加密
    这篇文章主要为大家展示了“mybatis如何实现特殊字段加密”,内容简而易懂,条理清晰,希望能够帮助大家解决疑惑,下面让小编带领大家一起研究并学习一下“mybatis如何实现特殊字段加密”这篇文章吧。一、背景在我们数据库中有些时候会保存一些...
    99+
    2023-06-29
  • MybatisPlus字段类型转换如何实现
    本文小编为大家详细介绍“MybatisPlus字段类型转换如何实现”,内容详细,步骤清晰,细节处理妥当,希望这篇“MybatisPlus字段类型转换如何实现”文章能帮助大家解决疑惑,下面跟着小编的思路慢慢深入,一起来学习新知识吧。resul...
    99+
    2023-07-05
  • php 字符串如何转url实体
    小编给大家分享一下php 字符串如何转url实体,相信大部分人都还不怎么了解,因此分享这篇文章给大家参考一下,希望大家阅读完这篇文章后大有收获,下面让我们一起去了解一下吧!php字符串转url实体的方法:1、通过parse_url()解析u...
    99+
    2023-06-22
  • 如何解决MyBatis中Enum字段参数解析问题
    小编给大家分享一下如何解决MyBatis中Enum字段参数解析问题,相信大部分人都还不怎么了解,因此分享这篇文章给大家参考一下,希望大家阅读完这篇文章后大有收获,下面让我们一起去了解一下吧!基础Class和TypeHandlerMyBati...
    99+
    2023-06-20
  • 实例解析package.json和最常见的scripts字段
    目录前言什么是package.json详解package.json文件结构scripts详解scripts字段有哪些特殊的脚本命令使用scripts字段有以下几个好处:scripts...
    99+
    2023-05-14
    package.json和scripts字段 package.json scripts
  • JavaScript如何实现HTML字段转换函数
    这篇文章给大家分享的是有关JavaScript如何实现HTML字段转换函数的内容。小编觉得挺实用的,因此分享给大家做个参考,一起跟随小编过来看看吧。HTML字段转换函数function  ...
    99+
    2024-04-02
  • sql如何实现对密码字段加密
    在SQL中实现对密码字段加密的方法有很多种,以下是其中一种常见的方法: 使用加密函数:可以使用内置的加密函数如MD5、SHA1等来...
    99+
    2024-04-02
  • URL去重该如何实现
    URL去重该如何实现,很多新手对此不是很清楚,为了帮助大家解决这个难题,下面小编将为大家详细讲解,有这方面需求的人可以来学习下,希望你能有所收获。IPv6编码地址数:2^128(约3.4&times;10^38)IPv6是IETF设...
    99+
    2023-06-17
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作