返回顶部
首页 > 资讯 > 前端开发 > JavaScript >在Scrapy中怎么利用CSS选择器从网页中采集目标数据
  • 498
分享到

在Scrapy中怎么利用CSS选择器从网页中采集目标数据

2024-04-02 19:04:59 498人浏览 独家记忆
摘要

这篇文章主要介绍“在scrapy中怎么利用CSS选择器从网页中采集目标数据”,在日常操作中,相信很多人在在Scrapy中怎么利用CSS选择器从网页中采集目标数据问题上存在疑惑,小编查阅了各式资料,整理出简单

这篇文章主要介绍“在scrapy中怎么利用CSS选择器从网页中采集目标数据”,在日常操作中,相信很多人在在Scrapy中怎么利用CSS选择器从网页中采集目标数据问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法,希望对大家解答”在Scrapy中怎么利用CSS选择器从网页中采集目标数据”的疑惑有所帮助!接下来,请跟着小编一起来学习吧!

/CSS基础/

CSS选择器和Xpath选择器的功能是一致的,都是帮助我们去定位网页结构中的某一个具体的元素,但是在语法表达上有区别。Xpath选择器明明已经可以帮助我们提取信息了,为什么还要学习CSS选择器呢?

萝卜青菜各有所爱,对于不同知识背景的小伙伴,都可以来提取网页信息。只要是能抓到老鼠的猫,都是好猫,同样的,只要能提取信息,不论是正则表达式、BeateafulSoup、Xpath选择器亦或是CSS选择器,都是好的选择器,只不过在效率和难易程度上不一样。此外,对应前端的小伙伴来说,CSS选择器对他们来说就简单很多。

CSS选择器功能强大,从实用性出发,下面是部分比较常用的一些CSS选择器语法,相对来说比较简单,但是也是非常实用的语法,希望大家都可以牢牢掌握,后期在提取网页信息的时候将会事半功倍。

在Scrapy中怎么利用CSS选择器从网页中采集目标数据

有了以上的CSS基础之后,接下来我们进行实际应用。

/实际应用/

仍然以之前的网站为例进行说明,我们的目标数据是标题、发布日期、主题、正文内容、点赞数、收藏数、评论数等。

1、关于标题部分,之前我们利用Xpath的表达式的时候就分析过,得到了唯一性的定位标签,在此不再赘述,如下图所示。

在Scrapy中怎么利用CSS选择器从网页中采集目标数据

2、仍然利用scrapyshell的调试模式进行助攻,结合上边的CSS基础语法,标题的具体CSS表达式如下图所示。

在Scrapy中怎么利用CSS选择器从网页中采集目标数据

需要注意的是在CSS中获取标签文本内容的方式是在CSS表达式后边紧跟“::text”,记住是有两个冒号噢,与Xpath表达式不一样。这个表达式看上去比Xpath表达式要简洁一些,所以当某些情况下,大家如果觉得CSS选择器的表达式比Xpath表达式要简短或者理解起来相对容易的话,可以首选CSS选择器,没有具体的要求,大家根据自己的喜爱来进行选择即可,反之亦成立,当然也可以同时在一个爬虫文件将两个或者多个选择器进行交叉使用。

3、接下来是发布日期的提取,仍然是以交互式的方式实现网页与源码之间的交互,其中标签“entry-meta-hide-on-mobile”具有全局唯一性,可以很方便的定位到元素,如下图所示。

在Scrapy中怎么利用CSS选择器从网页中采集目标数据

4、根据网页结构,我们可轻易的写出发布日期的CSS表达式,可以在scrapy shell中先进行测试,再将选择器表达式写入爬虫文件中,详情如下图所示。

在Scrapy中怎么利用CSS选择器从网页中采集目标数据

5、关于文章主题标签的CSS表达式,可以看到其在网页结构上处于日期的下方,如下图所示。

在Scrapy中怎么利用CSS选择器从网页中采集目标数据

6、通过更改一下发布日期的CSS表达式,即可获取到文章主题标签。文章主题标签处于a标签下,如下图所示。

在Scrapy中怎么利用CSS选择器从网页中采集目标数据

获取到整个列表之后,利用join函数将数组中的元素以逗号连接生成一个新的字符串叫tags,然后写入Scrapy爬虫文件中去。

7、对于点赞数,其分析方法同之前一致,找到唯一的一个标签“vote-post-up”即可定位到数据。

在Scrapy中怎么利用CSS选择器从网页中采集目标数据

8、点赞数在h20标签下,根据网页结构写出CSS表达式,调试的过程如下图所示。

在Scrapy中怎么利用CSS选择器从网页中采集目标数据

取出的点赞数是个字符串,需要利用int()将其强制转换为数字。

到此,关于“在Scrapy中怎么利用CSS选择器从网页中采集目标数据”的学习就结束了,希望能够解决大家的疑惑。理论与实践的搭配能更好的帮助大家学习,快去试试吧!若想继续学习更多相关知识,请继续关注编程网网站,小编会继续努力为大家带来更多实用的文章!

--结束END--

本文标题: 在Scrapy中怎么利用CSS选择器从网页中采集目标数据

本文链接: https://lsjlt.com/news/84404.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

猜你喜欢
  • 在Scrapy中怎么利用CSS选择器从网页中采集目标数据
    这篇文章主要介绍“在Scrapy中怎么利用CSS选择器从网页中采集目标数据”,在日常操作中,相信很多人在在Scrapy中怎么利用CSS选择器从网页中采集目标数据问题上存在疑惑,小编查阅了各式资料,整理出简单...
    99+
    2024-04-02
  • Scrapy中怎么利用Xpath选择器从网页中采集目标数据
    Scrapy中怎么利用Xpath选择器从网页中采集目标数据,相信很多没有经验的人对此束手无策,为此本文总结了问题出现的原因和解决方法,通过这篇文章希望你能解决这个问题。/具体实现/1、针对标题,在上篇文章中...
    99+
    2024-04-02
  • 怎么在CSS中利用选择器分组
    怎么在CSS中利用选择器分组?相信很多没有经验的人对此束手无策,为此本文总结了问题出现的原因和解决方法,通过这篇文章希望你能解决这个问题。选择器分组假设希望 h3 元素和段落都有灰色。为达到这个目的,最容易的做法是使用以下声明:h3, p ...
    99+
    2023-06-08
  • Xpath元素选择器怎么在Scrapy中使用
    这期内容当中小编将会给大家带来有关Xpath元素选择器怎么在Scrapy中使用,文章内容丰富且以专业的角度为大家分析和叙述,阅读完这篇文章希望大家可以有所收获。1. 元素的多级定位与跳级定位多级定位:依靠html中的多级元素逐步缩小范围re...
    99+
    2023-06-14
  • 怎么在python中使用scrapy框架处理多页数据
    怎么在python中使用scrapy框架处理多页数据?相信很多没有经验的人对此束手无策,为此本文总结了问题出现的原因和解决方法,通过这篇文章希望你能解决这个问题。python的五大特点是什么python的五大特点:1.简单易学,开发程序时,...
    99+
    2023-06-14
  • 怎么在python中利用Yolact训练数据集
    怎么在python中利用Yolact训练数据集?针对这个问题,这篇文章详细介绍了相对应的分析和解答,希望可以帮助更多想解决这个问题的小伙伴找到更简单易行的方法。1:提前准备好自己的数据集使用labelme来制作分割数据集,但是得到的是一个个...
    99+
    2023-06-14
  • 怎么在CSS选择器中使用正则表达式
    怎么在CSS选择器中使用正则表达式?针对这个问题,这篇文章详细介绍了相对应的分析和解答,希望可以帮助更多想解决这个问题的小伙伴找到更简单易行的方法。正则表达式世界的规则。例如:字符^表示字符串开始位置匹配;字符$表示字符串结束位置匹配;字符...
    99+
    2023-06-08
  • 服务器租用怎么选择数据中心
    服务器租用选择数据中心的方法:1、看数据中心的地理位置,考虑自然灾害的概率和周边的交通问题;2、看数据中心的电力供应情况,保证有足够的冗余;3、看数据中心的网络连接情况,如是否有单线、双线、双线BGP、多线BGP等线路;4、看数据中心的制冷...
    99+
    2024-04-02
  • 怎么在Python中利用tkinter实现一个日期选择器
    这篇文章主要介绍了怎么在Python中利用tkinter实现一个日期选择器,此处通过实例代码给大家介绍的非常详细,对大家的学习或工作具有一定的参考价值,需要的朋友可以参考下:首先,定义一个类,叫Calendar# -*- ...
    99+
    2023-06-06
  • css3怎么用选择器在页面中插入所需内容
    这篇文章主要介绍“css3怎么用选择器在页面中插入所需内容”的相关知识,小编通过实际案例向大家展示操作过程,操作方法简单快捷,实用性强,希望这篇“css3怎么用选择器在页面中插入所需内容”文章能帮助大家解决...
    99+
    2024-04-02
  • 在网页上的选择器中显示选项时出现问题:循环 {{ range }} 的数据未在 Go 模板中传递
    在网页开发过程中,有时会遇到一些问题,比如在使用选择器时出现了一些显示选项的问题。其中一个常见问题是循环数据未在Go模板中传递。这个问题可能会导致选择器无法正确显示选项。为了解决这个问...
    99+
    2024-02-08
  • 怎么使用PHP在网页中修改数据库的内容
    这篇文章主要介绍了怎么使用PHP在网页中修改数据库的内容的相关知识,内容详细易懂,操作简单快捷,具有一定借鉴价值,相信大家阅读完这篇怎么使用PHP在网页中修改数据库的内容文章都会有所收获,下面我们一起来看看吧。首先,需要在网页中连接数据库。...
    99+
    2023-07-05
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作