首页 > 资讯 > 后端开发 > Python >Python 爬虫库RoboBrowser怎么用

941

分享到

Python 爬虫库RoboBrowser怎么用

2023-06-13 06:06:16 941人浏览安东尼

Python 官方文档：入门教程 => 点击学习

摘要

这篇文章主要介绍“python 爬虫库RoboBrowser怎么用”，在日常操作中，相信很多人在Python 爬虫库RoboBrowser怎么用问题上存在疑惑，小编查阅了各式资料，整理出简单好用的操作方法，希望对大家解答”Python 爬虫

这篇文章主要介绍“python 爬虫库RoboBrowser怎么用”，在日常操作中，相信很多人在Python 爬虫库RoboBrowser怎么用问题上存在疑惑，小编查阅了各式资料，整理出简单好用的操作方法，希望对大家解答”Python 爬虫库RoboBrowser怎么用”的疑惑有所帮助！接下来，请跟着小编一起来学习吧！

1. 前言

今天推荐一款小众轻量级的爬虫库：RoboBrowser

RoboBrowser，Your friendly neighborhood WEB scraper！由纯 Python 编写，运行无需独立的浏览器，它不仅可以做爬虫，还可以实现 Web 端的自动化

2. 安装及用法

在实战之前，我们先安装依赖库及解析器

PS：官方推荐的解析器是「lxml」

# 安装依赖pip3 install robobrowser# lxml解析器（官方推荐）pip3 install lxml

RoboBrowser 常见的 2 个功能为：

模拟表单 FORM 提交
网页数据爬取

使用 RoboBrowser 进行网页数据爬取，常见的 3 个方法如下：

find

查询当前页面满足条件的第一个元素

find_all

查询当前页面拥有共同属性的一个列表元素

select

通过 CSS 选择器，查询页面，返回一个元素列表

需要指出的是，RoboBrowser 依赖于 BS4，所以它的使用方法和 BS4 类似

更多功能可以参考：

https://www.crummy.com/software/BeautifulSoup/bs4/doc.zh/

3. 实战一下

我们以「百度搜索及爬取搜索结果列表」为例

3-1 打开目标网站

首先，我们实例化一个 RoboBrowser 对象

from time import sleepfrom robobrowser import RoboBrowserhome_url = 'Https://baidu.com'# parser: 解析器，html parser; used by BeautifulSoup# 官方推荐：lxmlrb = RoboBrowser(history=True, parser='lxml')# 打开目标网站rb.open(home_url)

然后，使用 RoboBrowser 实例对象中的 open() 方法打开目标网站

3-2 自动化表单提交

首先，使用 RoboBrowser 实例对象获取网页中的表单 Form

然后，通过为表单中的输入框赋值模拟输入操作

最后，使用 submit_form() 方法进行表单提交，模拟一次搜索操作

# 获取表单对象bd_form = rb.get_form()print(bd_form)bd_form['wd'].value = "AirPython"# 提交表单，模拟一次搜索rb.submit_form(bd_form)

3-3 数据爬取

分析搜索页面的网页结构，利用 RoboBrowser 中的 select() 方法匹配出所有的搜索列表元素

遍历搜索列表元素，使用 find() 方法查询出每一项的标题及 href 链接地址

# 查看结果result_elements = rb.select(".result")# 搜索结果search_result = []# 第一项的链接地址first_href = ''for index, element in enumerate(result_elements): title = element.find("a").text href = element.find("a")['href'] search_result.append(title) if index == 0:  first_href = element.find("a")  print('第一项地址为:', href)print(search_result)

最后，使用 RoboBrowser 中的 follow_link() 方法模拟一下「点击链接，查看网页详情」的操作

# 跳转到第一个链接rb.follow_link(first_href)# 获取历史print(rb.url)

需要注意的是，follow_link() 方法的参数为带有 href 值的 a 标签

4. 最后

文中结合百度搜索实例，使用 RoboBrowser 完成了一次自动化及爬虫操作

相比 selenium、Helium 等，RoboBrowser 更轻量级，不依赖独立的浏览器及驱动

如果想处理一些简单的爬虫或 Web 自动化，RoboBrowser 完全够用；但是面对一些复杂的自动化场景，更建议使用 Selenium、Pyppeteer、Helium 等

到此，关于“Python 爬虫库RoboBrowser怎么用”的学习就结束了，希望能够解决大家的疑惑。理论与实践的搭配能更好的帮助大家学习，快去试试吧！若想继续学习更多相关知识，请继续关注编程网网站，小编会继续努力为大家带来更多实用的文章！

您可能感兴趣的文档:

--结束END--

本文标题: Python 爬虫库RoboBrowser怎么用

本文链接: https://lsjlt.com/news/266242.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

回答

如何调试操作系统的错误？
操作系统

2023-11-15发布

回答

操作系统中的I/O系统是如何实现的？
操作系统

2023-11-15发布

回答

如何实现操作系统的内存管理？
操作系统

2023-11-15发布

回答

什么是虚拟内存，它对操作系统有什么影响？
操作系统

2023-11-15发布

回答

ASP中的MVC架构和WebForms架构有什么区别和使用场景？
ASP.NET

2023-11-15发布

回答

ASP中的数据验证和数据校验有什么不同？
ASP.NET

2023-11-15发布

回答

ASP中的ADO对象和DAO对象有什么区别和使用方法？
ASP.NET

2023-11-15发布

回答

Node.js中的包管理器NPM是什么？如何使用它进行依赖管理？
node.js

2023-11-15发布

回答

Vue.js中的动态组件是什么？如何使用它来动态渲染组件？
VUE

2023-11-15发布

回答

如何使用Vue.js实现懒加载和预加载？
VUE

2023-11-15发布

Python 爬虫库RoboBrowser怎么用

1. 前言

2. 安装及用法

3. 实战一下

3-1 打开目标网站

3-2 自动化表单提交

3-3 数据爬取

4. 最后

Python 爬虫库RoboBrowser怎么用

小众实用的Python 爬虫库RoboBrowser

python爬虫中requests库怎么用

Python爬虫中urllib库怎么用

python爬虫怎么使用BeautifulSoup库

爬虫笔记1：Python爬虫常用库

Python爬虫基础之selenium库怎么用

Python网络爬虫requests库怎么使用

怎么使用Python爬虫

Python爬虫XPath怎么用

python爬虫13：pymysql库

Python爬虫怎么突破反爬虫机制

怎么使用python爬虫爬取数据

Python爬虫Requests库如何使用

python爬虫反爬怎么处理

python爬虫有哪些库

有哪些python爬虫库

python爬虫库有哪些

怎么用Python爬虫分析App

python怎么爬虫lxml库解析xpath网页

python分析数据的方法是什么

如何使用Python实现抽奖小程序

python copy函数的作用是什么

python ffmpeg模块怎么安装和使用

python进程池创建队列的方法是什么

python无法运行文件的原因有哪些

python can't open file报错怎么解决

python keyerror错误怎么解决

python字符串处理与应用的方法有哪些

python全局变量如何定义