小众实用的Python 爬虫库RoboBrowser

2024-04-02 19:04:59 349人浏览独家记忆

Python 官方文档：入门教程 => 点击学习

摘要

目录1. 前言2. 安装及用法3. 实战一下3-1 打开目标网站3-2 自动化表单提交3-3 数据爬取4. 最后1.

1. 前言

大家好，我是安果！

今天推荐一款小众轻量级的爬虫库：RoboBrowser

RoboBrowser，Your friendly neighborhood WEB scraper！由纯 python 编写，运行无需独立的浏览器，它不仅可以做爬虫，还可以实现 Web 端的自动化

项目地址：

https://GitHub.com/jmcarp/robobrowser

2. 安装及用法

在实战之前，我们先安装依赖库及解析器

PS：官方推荐的解析器是「lxml」


# 安装依赖
pip3 install robobrowser

# lxml解析器（官方推荐）
pip3 install lxml

RoboBrowser 常见的 2 个功能为：

模拟表单 FORM 提交
网页数据爬取

使用 RoboBrowser 进行网页数据爬取，常见的 3 个方法如下：

find

查询当前页面满足条件的第一个元素

find_all

查询当前页面拥有共同属性的一个列表元素

select

通过 CSS 选择器，查询页面，返回一个元素列表

需要指出的是，RoboBrowser 依赖于 BS4，所以它的使用方法和 BS4 类似

更多功能可以参考：

Https://www.crummy.com/software/BeautifulSoup/bs4/doc.zh/

3. 实战一下

我们以「百度搜索及爬取搜索结果列表」为例

3-1 打开目标网站

首先，我们实例化一个 RoboBrowser 对象


from time import sleep

from robobrowser import RoboBrowser

home_url = 'https://baidu.com'

# parser: 解析器，html parser; used by BeautifulSoup
# 官方推荐：lxml
rb = RoboBrowser(history=True, parser='lxml')

# 打开目标网站
rb.open(home_url)

然后，使用 RoboBrowser 实例对象中的 open() 方法打开目标网站

3-2 自动化表单提交

首先，使用 RoboBrowser 实例对象获取网页中的表单 Form

然后，通过为表单中的输入框赋值模拟输入操作

最后，使用 submit_form() 方法进行表单提交，模拟一次搜索操作


# 获取表单对象
bd_form = rb.get_form()

print(bd_form)

bd_form['wd'].value = "AirPython"

# 提交表单，模拟一次搜索
rb.submit_form(bd_form)

3-3 数据爬取

分析搜索页面的网页结构，利用 RoboBrowser 中的 select() 方法匹配出所有的搜索列表元素

遍历搜索列表元素，使用 find() 方法查询出每一项的标题及 href 链接地址


# 查看结果
result_elements = rb.select(".result")

# 搜索结果
search_result = []

# 第一项的链接地址
first_href = ''

for index, element in enumerate(result_elements):
 title = element.find("a").text
 href = element.find("a")['href']
 search_result.append(title)

 if index == 0:
  first_href = element.find("a")
  print('第一项地址为:', href)

print(search_result)

最后，使用 RoboBrowser 中的 follow_link() 方法模拟一下「点击链接，查看网页详情」的操作


# 跳转到第一个链接
rb.follow_link(first_href)

# 获取历史
print(rb.url)

需要注意的是，follow_link() 方法的参数为带有 href 值的 a 标签

4. 最后

文中结合百度搜索实例，使用 RoboBrowser 完成了一次自动化及爬虫操作

相比 selenium、Helium 等，RoboBrowser 更轻量级，不依赖独立的浏览器及驱动

如果想处理一些简单的爬虫或 Web 自动化，RoboBrowser 完全够用；但是面对一些复杂的自动化场景，更建议使用 Selenium、Pyppeteer、Helium 等

以上就是Python 爬虫库RoboBrowser的使用简介的详细内容，更多关于Python 爬虫库RoboBrowser的资料请关注编程网其它相关文章！

您可能感兴趣的文档:

--结束END--

本文标题: 小众实用的Python 爬虫库RoboBrowser

本文链接: https://lsjlt.com/news/121567.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

猜你喜欢

小众实用的Python 爬虫库RoboBrowser

目录1. 前言2. 安装及用法3. 实战一下3-1 打开目标网站3-2 自动化表单提交3-3 数据爬取4. 最后1....

99+

2024-04-02
Python 爬虫库RoboBrowser怎么用

这篇文章主要介绍“Python 爬虫库RoboBrowser怎么用”，在日常操作中，相信很多人在Python 爬虫库RoboBrowser怎么用问题上存在疑惑，小编查阅了各式资料，整理出简单好用的操作方法，希望对大家解答”Python 爬虫...

99+

2023-06-13
爬虫笔记1：Python爬虫常用库

请求库：1、urllib：urllib库是Python3自带的库（Python2有urllib和urllib2，到了Python3统一为urllib），这个库是爬虫里最简单的库。2、requests：requests属于第三方库，使用起来...

99+

2023-01-31

爬虫常用笔记
python 淘宝爬虫小实例

兄弟们，双十一剁手了吗？购物虽快乐，但是别过度了，毕竟很多降价不是真的降价，眼睛擦亮了~ 今天来试试爬一下某宝，这玩意学会了做外包的话，还是值几个钱的。环境/模块介绍 pyt...

99+

2024-04-02
利用Node.js制作爬取大众点评的爬虫

前言 Node.js天生支持并发，但是对于习惯了顺序编程的人，一开始会对Node.js不适应，比如，变量作用域是函数块式的（与C、Java不一样）；for循环体（{}）内引用i的值实际上是循环结束之后的值，...

99+

2022-06-04

爬虫大众点评
Python爬虫：爬取小说并存储到数据库

爬取小说网站的小说，并保存到数据库第一步：先获取小说内容#!/usr/bin/python # -*- coding: UTF-8 -*- import ...

99+

2024-04-02
怎么用Python爬虫公众号文章和链接

这篇文章主要讲解了“怎么用Python爬虫公众号文章和链接”，文中的讲解内容简单清晰，易于学习与理解，下面请大家跟着小编的思路慢慢深入，一起来研究和学习“怎么用Python爬虫公众号文章和链接”吧！抓包我们需要通过抓包提取公众号文章的请求的...

99+

2023-06-16
python小白的初步爬虫

前序：最近工作不是很忙，领导突然找我谈话，说是谈话，其实就是分配活呗。果不其然，很快进入正题, 给了我一个网址链接，然后说需要商品的信息。。。巴拉巴拉。好吧，去做吧。我当时的内心是崩溃的，python爬虫压根没碰过，这下完蛋了，...

99+

2023-01-30

爬虫 python
用Python写一个小爬虫吧！

学习了一段时间的web前端，感觉有点看不清前进的方向，于是就写了一个小爬虫，爬了51job上前端相关的岗位，看看招聘方对技术方面的需求，再有针对性的学习。我在此之前接触过Python，也写过一些小脚本，于是决定用Python来完成这个小...

99+

2023-01-30

爬虫 Python
python使用pywinauto驱动微信客户端实现公众号爬虫

目录项目地址pywinauto简介WechatAutomator类init_windowcrawl_gongzhonghaolocate_userprocess_page项目地址 https://github.com...

99+

2022-06-02

python pywinauto python 公众号爬虫
Python爬虫Requests库的使用详情

目录一、Requests库的7个主要的方法二、Response对象的属性三、爬取网页通用代码四、Resquests库的常见异常五、Robots协议展示六、案例展示一、Requests...

99+

2024-04-02
python爬虫用到的库有哪些

Python爬虫常用的库有： requests：用于发送HTTP请求，获取网页内容。 BeautifulSoup：用于解析HTML...

99+

2023-10-24

python
Python爬虫之Requests库的基

1 import requests 2 response = requests.get('http://www.baidu.com/') 3 print(type(response)) 4 print(response....

99+

2023-01-30

爬虫 Python Requests
python爬虫中requests库怎么用

小编给大家分享一下python爬虫中requests库怎么用，相信大部分人都还不怎么了解，因此分享这篇文章给大家参考一下，希望大家阅读完这篇文章后大有收获，下面让我们一起去了解一下吧！python爬虫—requests库的用法request...

99+

2023-06-25
Python爬虫中urllib库怎么用

这篇文章给大家分享的是有关Python爬虫中urllib库怎么用的内容。小编觉得挺实用的，因此分享给大家做个参考，一起跟随小编过来看看吧。一、说明：urllib库是python内置的一个http请求库，requests库就是基于该库开发出来...

99+

2023-06-29
python爬虫怎么使用BeautifulSoup库

本篇内容介绍了“python爬虫怎么使用BeautifulSoup库”的有关知识，在实际案例的操作过程中，不少人都会遇到这样的困境，接下来就让小编带领大家学习一下如何处理这些情况吧！希望大家仔细阅读，能够学有所成！　　BeautiSoup类...

99+

2023-06-02
Python爬虫Requests库如何使用

本篇内容主要讲解“Python爬虫Requests库如何使用”，感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷，实用性强。下面就让小编来带大家学习“Python爬虫Requests库如何使用”吧!1、安装 requests 库因为学习过...

99+

2023-07-06
python爬虫之requests库的使用详解

目录python爬虫—requests库的用法基本的get请求带参数的GET请求：解析json使用代理获取cookie会话维持证书验证设置超时异常捕获异常处理总结 python爬虫...

99+

2024-04-02
python实现selenium网络爬虫的方法小结

selenium最初是一个自动化测试工具，而爬虫中使用它主要是为了解决requests无法直接执行JavaScript代码的问题，selenium本质是通过驱动浏览器，完全模拟浏览器...

99+

2024-04-02
怎么用Python写个听小说的爬虫

这篇文章主要介绍了怎么用Python写个听小说的爬虫的相关知识，内容详细易懂，操作简单快捷，具有一定借鉴价值，相信大家阅读完这篇怎么用Python写个听小说的爬虫文章都会有所收获，下面我们一起来看看吧。书名和章节列表随机点开一本书，这个页面...

99+

2023-06-29