返回顶部
首页 > 资讯 > 后端开发 > Python >python网络爬虫方向的第三方库有哪些
  • 948
分享到

python网络爬虫方向的第三方库有哪些

网络爬虫python 2022-07-11 18:07:23 948人浏览 安东尼

Python 官方文档:入门教程 => 点击学习

摘要

爬虫方向第三方库:1、urllib3,一个python Http库,安全连接池、支持文件post、可用性高;2、MechanicalSoup,一个与网站自动交互Python库;3、grab,一个基于pycurl/multicur的网络爬虫框

爬虫方向第三方库:1、urllib3,一个python Http库,安全连接池、支持文件post、可用性高;2、MechanicalSoup,一个与网站自动交互Python库;3、grab,一个基于pycurl/multicur的网络爬虫框架;4、portia,一个基于scrapy可视化爬虫库;5、Tornado,一个网络框架和异步网络库;6、scrapy,一个网络爬虫框架。

教程操作环境:windows7系统、python3、Dell G3电脑。

这个列表包含与网页抓取和数据处理的Python库

网络

  • 通用
    • urllib -网络库(stdlib)。
    • requests -网络库。
    • grab – 网络库(基于pycurl)。
    • pycurl – 网络库(绑定libcurl)。
    • urllib3 – Python HTTP库,安全连接池、支持文件post、可用性高。
    • httplib2 – 网络库。
    • RoboBrowser – 一个简单的、极具Python风格的Python库,无需独立的浏览器即可浏览网页。
    • MechanicalSoup -一个与网站自动交互Python库。
    • mechanize -有状态、可编程WEB浏览库。
    • Socket – 底层网络接口(stdlib)。
    • Unirest for Python – Unirest是一套可用于多种语言的轻量级的HTTP库。
    • hyper – Python的HTTP/2客户端。
    • PySocks – SocksiPy更新并积极维护的版本,包括错误修复和一些其他的特征。作为socket模块的直接替换。
  • 异步
    • treq – 类似于requests的api(基于twisted)。
    • aiohttp – asyncio的HTTP客户端/服务器(PEP-3156)。

网络爬虫框架

  • 功能齐全的爬虫
    • grab – 网络爬虫框架(基于pycurl/multicur)。
    • scrapy – 网络爬虫框架(基于twisted),不支持Python3。
    • pyspider – 一个强大的爬虫系统。
    • cola – 一个分布式爬虫框架。
  • 其他
    • portia – 基于Scrapy的可视化爬虫。
    • restkit – Python的HTTP资源工具包。它可以让你轻松地访问HTTP资源,并围绕它建立的对象。
    • demiurge – 基于PyQuery的爬虫微框架。

html/XML解析器

  • 通用
    • lxml – C语言编写高效HTML/ XML处理库。支持XPath。
    • CSSselect – 解析DOM树和CSS选择器。
    • pyquery – 解析DOM树和Jquery选择器。
    • BeautifulSoup – 低效HTML/ XML处理库,纯Python实现。
    • HTML5lib – 根据WHATWG规范生成HTML/ XML文档的DOM。该规范被用在现在所有的浏览器上。
    • feedparser – 解析RSS/ATOM feeds。
    • MarkupSafe – 为XML/HTML/XHTML提供了安全转义的字符串
    • xmltodict – 一个可以让你在处理XML时感觉像在处理JSON一样的Python模块。
    • xhtml2pdf – 将HTML/CSS转换为PDF。
    • untangle – 轻松实现将XML文件转换为Python对象。
  • 清理
    • Bleach – 清理HTML(需要html5lib)。
    • sanitize – 为混乱的数据世界带来清明。

文本处理

用于解析和操作简单文本的库。

  • 通用

  • difflib – (Python标准库)帮助进行差异化比较。

  • Levenshtein – 快速计算Levenshtein距离和字符串相似度。

  • fuzzywuzzy – 模糊字符串匹配。

  • esmre – 正则表达式加速器。

  • ftfy – 自动整理Unicode文本,减少碎片化。

  • 转换

  • unidecode – 将Unicode文本转为ASCII。

  • 字符编码

  • uNIOut – 打印可读字符,而不是被转义的字符串。

  • chardet – 兼容 Python的2/3的字符编码器。

  • xpinyin – 一个将中国汉字转为拼音的库。

  • pangu.py – 格式化文本中CJK和字母数字的间距。

  • Slug化

  • awesome-slugify – 一个可以保留unicode的Python slugify库。

  • python-slugify – 一个可以将Unicode转为ASCII的Python slugify库。

  • unicode-slugify – 一个可以将生成Unicode slugs的工具。

  • pytils – 处理俄语字符串的简单工具(包括pytils.translit.slugify)。

  • 通用解析器

  • PLY – lex和yacc解析工具的Python实现。

  • pyparsing – 一个通用框架的生成语法分析器。

  • 人的名字

  • python-nameparser -解析人的名字的组件。

  • 电话号码

  • phonenumbers -解析,格式化,存储和验证国际电话号码。

  • 用户代理字符串

  • python-user-agents – 浏览器用户代理的解析器。

  • HTTP Agent Parser – Python的HTTP代理分析器。

特定格式文件处理

解析和处理特定文本格式的库。

  • 通用

  • tablib – 一个把数据导出为XLS、CSV、jsON、YAML等格式的模块。

  • textract – 从各种文件中提取文本,比如 Word、PowerPoint、PDF等。

  • messytables – 解析混乱的表格数据的工具。

  • rows – 一个常用数据接口,支持的格式很多(目前支持CSV,HTML,XLS,TXT – 将来还会提供更多!)。

  • Office

  • python-docx – 读取,查询和修改的Microsoft Word2007/2008的docx文件。

  • xlwt / xlrd – 从excel文件读取写入数据和格式信息。

  • XlsxWriter – 一个创建Excel.xlsx文件的Python模块。

  • xlwings – 一个BSD许可的库,可以很容易地在Excel中调用Python,反之亦然。

  • openpyxl – 一个用于读取和写入的Excel2010 XLSX/ XLSM/ xltx/ XLTM文件的库。

  • Marmir – 提取Python数据结构并将其转换为电子表格。

  • PDF

  • PDFMiner – 一个从PDF文档中提取信息的工具。

  • PyPDF2 – 一个能够分割、合并和转换PDF页面的库。

  • ReportLab – 允许快速创建丰富的PDF文档。

  • pdftables – 直接从PDF文件中提取表格。

  • markdown

  • Python-Markdown – 一个用Python实现的John Gruber的Markdown。

  • Mistune – 速度最快,功能全面的Markdown纯Python解析器。

  • markdown2 – 一个完全用Python实现的快速的Markdown。

  • YAML

  • PyYAML – 一个Python的YAML解析器。

  • CSS

  • cssutils – 一个Python的CSS库。

  • ATOM/RSS

  • feedparser – 通用的feed解析器。

  • sql

  • sqlparse – 一个非验证的SQL语句分析器。

  • HTTP

  • HTTP

  • http-parser – C语言实现的HTTP请求/响应消息解析器。

  • 微格式

  • opengraph – 一个用来解析Open Graph协议标签的Python模块。

  • 可移植的执行体

  • pefile – 一个多平台的用于解析和处理可移植执行体(即PE)文件的模块。

  • PSD

  • psd-tools – 将Adobe Photoshop PSD(即PE)文件读取到Python数据结构。

自然语言处理

处理人类语言问题的库。

  • NLTK -编写Python程序来处理人类语言数据的最好平台。
  • Pattern – Python的网络挖掘模块。他有自然语言处理工具,机器学习以及其它。
  • TextBlob – 为深入自然语言处理任务提供了一致的API。是基于NLTK以及Pattern的巨人之肩上发展的。
  • jieba – 中文分词工具。
  • SnowNLP – 中文文本处理库。
  • loso – 另一个中文分词库。
  • genius – 基于条件随机域的中文分词。
  • langid.py – 独立的语言识别系统。
  • Korean – 一个韩文形态库。
  • pymorphy2 – 俄语形态分析器(词性标注+词形变化引擎)。
  • PyPLN – 用Python编写的分布式自然语言处理通道。这个项目的目标是创建一种简单的方法使用NLTK通过网络接口处理大语言库。

浏览器自动化与仿真

  • selenium – 自动化真正的浏览器(Chrome浏览器,火狐浏览器,Opera浏览器,IE浏览器)。
  • Ghost.py – 对PyQt的webkit的封装(需要PyQT)。
  • Spynner – 对PyQt的webkit的封装(需要PyQT)。
  • Splinter – 通用API浏览器模拟器(selenium web驱动,Django客户端,Zope)。

多重处理

  • threading – Python标准库的线程运行。对于I/O密集型任务很有效。对于CPU绑定的任务没用,因为python GIL。
  • multiprocessing – 标准的Python库运行多进程。
  • celery – 基于分布式消息传递的异步任务队列/作业队列。
  • concurrent-futures – concurrent-futures 模块为调用异步执行提供了一个高层次的接口。

异步

异步网络编程

  • asyncio – (在Python 3.4 +版本以上的 Python标准库)异步I/O,时间循环,协同程序和任务。
  • Twisted – 基于事件驱动的网络引擎框架。
  • Tornado – 一个网络框架和异步网络库。
  • pulsar – Python事件驱动的并发框架。
  • diesel – Python的基于绿色事件的I/O框架。
  • gevent – 一个使用greenlet 的基于协程的Python网络库。
  • eventlet – 有WSGI支持的异步框架。
  • Tomorrow – 异步代码的奇妙的修饰语法。

队列

  • celery – 基于分布式消息传递的异步任务队列/作业队列。
  • huey – 小型多线程任务队列。
  • mrq – Mr. Queue – 使用Redis & Gevent 的Python分布式工作任务队列。
  • RQ – 基于Redis的轻量级任务队列管理器。
  • simpleq – 一个简单的,可无限扩展,基于Amazon SQS的队列。
  • python-gearman – Gearman的Python API。

云计算

  • picloud – 云端执行Python代码。
  • dominoup.com – 云端执行R,Python和matlab代码。

电子邮件

电子邮件解析库

  • flanker – 电子邮件地址和Mime解析库。
  • Talon – Mailgun库用于提取消息的报价和签名。

网址和网络地址操作

解析/修改网址和网络地址库。

  • URL

    • furl – 一个小的Python库,使得操纵URL简单化。
    • purl – 一个简单的不可改变的URL以及一个干净的用于调试和操作的API。
    • urllib.parse – 用于打破统一资源定位器(URL)的字符串在组件(寻址方案,网络位置,路径等)之间的隔断,为了结合组件到一个URL字符串,并将“相对URL”转化为一个绝对URL,称之为“基本URL”。
    • tldextract – 从URL的注册域和子域中准确分离TLD,使用公共后缀列表。
  • 网络地址

    • netaddr – 用于显示和操纵网络地址的Python库。

网页内容提取

提取网页内容的库。

  • HTML页面的文本和元数据

    • newspaper – 用Python进行新闻提取、文章提取和内容策展。
    • html2text – 将HTML转为Markdown格式文本。
    • python-Goose – HTML内容/文章提取器。
    • lassie – 人性化的网页内容检索工具
    • micawber – 一个从网址中提取丰富内容的小库。
    • sumy -一个自动汇总文本文件和HTML网页的模块
    • Haul – 一个可扩展的图像爬虫。
    • python-readability – arc90 readability工具的快速Python接口。
    • scrapely – 从HTML网页中提取结构化数据的库。给出了一些Web页面和数据提取的示例,scrapely为所有类似的网页构建一个分析器。
  • 视频

    • youtube-dl – 一个从YouTube下载视频的小命令行程序。
    • you-get – Python3的YouTube、优酷/ Niconico视频下载器。
  • 维基

    • WikiTeam – 下载和保存wikis的工具。

websocket

用于WebSocket的库。

  • Crossbar – 开源的应用消息传递路由器(Python实现的用于Autobahn的WebSocket和WAMP)。
  • AutobahnPython – 提供了WebSocket协议和WAMP协议的Python实现并且开源。
  • WebSocket-for-Python – Python 2和3以及PyPy的WebSocket客户端和服务器库。

DNS解析

  • dnsyo – 在全球超过1500个的DNS服务器上检查你的DNS。
  • pycares – c-ares的接口。c-ares是进行DNS请求和异步名称决议的C语言库。

计算机视觉

  • OpenCV – 开源计算机视觉库。
  • SimpleCV – 用于照相机、图像处理、特征提取、格式转换的简介,可读性强的接口(基于OpenCV)。
  • mahotas – 快速计算机图像处理算法(完全使用 c++ 实现),完全基于 numpy 的数组作为它的数据类型。

代理服务器

  • shadowsocks – 一个快速隧道代理,可帮你穿透防火墙(支持tcp和UDP,TFO,多用户和平滑重启,目的IP黑名单)。
  • tproxy – tproxy是一个简单的TCP路由代理(第7层),基于Gevent,用Python进行配置。

其他Python工具列表

  • awesome-python
  • pycrumbs
  • python-GitHub-projects
  • python_reference
  • pythonidae

【相关推荐:Python3视频教程 】

以上就是python网络爬虫方向的第三方库有哪些的详细内容,更多请关注编程网其它相关文章!

--结束END--

本文标题: python网络爬虫方向的第三方库有哪些

本文链接: https://lsjlt.com/news/33325.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

猜你喜欢
  • python网络爬虫方向的第三方库有哪些
    爬虫方向第三方库:1、urllib3,一个Python HTTP库,安全连接池、支持文件post、可用性高;2、MechanicalSoup,一个与网站自动交互Python库;3、grab,一个基于pycurl/multicur的网络爬虫框...
    99+
    2022-07-11
    网络爬虫 python
  • python网络爬虫方向的第三方库是什么
    这篇文章主要介绍“python网络爬虫方向的第三方库是什么”,在日常操作中,相信很多人在python网络爬虫方向的第三方库是什么问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法,希望对大家解答”python网络爬虫方向的第三方库...
    99+
    2023-07-02
  • python第三方库有哪些
    本篇文章给大家分享的是有关python第三方库有哪些,小编觉得挺实用的,因此分享给大家学习,希望大家阅读完这篇文章后可以有所收获,话不多说,跟着小编一起来看看吧。python有哪些常用库python常用的库:1.requesuts;2.sc...
    99+
    2023-06-14
  • python爬虫有哪些库
    python爬虫常用的库有:requests 做请求的时候用到,例如:requests.get("url")。selenium库,自动化会用到。lxml。beautifulsoup。pyquery网页解析库,语法和jquery非常像。pym...
    99+
    2024-04-02
  • 有哪些python爬虫库
    本篇文章给大家分享的是有关有哪些python爬虫库,小编觉得挺实用的,因此分享给大家学习,希望大家阅读完这篇文章后可以有所收获,话不多说,跟着小编一起来看看吧。python的数据类型有哪些python的数据类型:1. 数字类型,包括int(...
    99+
    2023-06-14
  • python爬虫库有哪些
    Python爬虫库有以下几个:1、Beautiful Soup一个Python的HTML/XML解析库,可以轻松地从网页中提取数据。...
    99+
    2023-05-13
    python爬虫库 python
  • Python第三库有哪些
    这篇文章主要讲解了“Python第三库有哪些”,文中的讲解内容简单清晰,易于学习与理解,下面请大家跟着小编的思路慢慢深入,一起来研究和学习“Python第三库有哪些”吧!1. BeautifulSoupBeautiful Soup是一个可以...
    99+
    2023-06-16
  • python无网络怎么安装第三方库
    如果你的Python环境没有网络连接,你可以使用以下方法安装第三方库:1. 在有网络连接的机器上下载所需的第三方库的安装包(通常为....
    99+
    2023-10-12
    python
  • 利用pip安装python第三方库的方法有哪些
    这篇文章主要介绍“利用pip安装python第三方库的方法有哪些”的相关知识,小编通过实际案例向大家展示操作过程,操作方法简单快捷,实用性强,希望这篇“利用pip安装python第三方库的方法有哪些”文章能帮助大家解决问题。一、无镜像安装 ...
    99+
    2023-07-05
  • python爬虫用到的库有哪些
    Python爬虫常用的库有: requests:用于发送HTTP请求,获取网页内容。 BeautifulSoup:用于解析HTML...
    99+
    2023-10-24
    python
  • 网络爬虫的常见方式
    本篇内容主要讲解“网络爬虫的常见方式”,感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷,实用性强。下面就让小编来带大家学习“网络爬虫的常见方式”吧!IP代理是一个网络信息的中转站,代理客户的真实IP进行访问,代理IP有三种形式,普通IP...
    99+
    2023-06-20
  • java网络爬虫的基础知识有哪些
    这篇文章主要介绍“java网络爬虫的基础知识有哪些”,在日常操作中,相信很多人在java网络爬虫的基础知识有哪些问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法,希望对大家解答”java网络爬虫的基础知识有哪些”的疑惑有所帮助!...
    99+
    2023-06-16
  • 计算机网络中避开网站反爬虫限制的方法有哪些
    小编给大家分享一下计算机网络中避开网站反爬虫限制的方法有哪些,希望大家阅读完这篇文章之后都有所收获,下面让我们一起去探讨吧!1、使用动态ip代理。使用动态ip的强大之处在于,它可以在爬虫运行的同时在线获取动态ip。每次只获得一页,存储在几组...
    99+
    2023-06-15
  • python第三方库下载网址
    python第三方库下载网址: https://pypi.python.org/simple/ ...
    99+
    2023-01-31
    第三方 网址 python
  • python实现selenium网络爬虫的方法小结
    selenium最初是一个自动化测试工具,而爬虫中使用它主要是为了解决requests无法直接执行JavaScript代码的问题,selenium本质是通过驱动浏览器,完全模拟浏览器...
    99+
    2024-04-02
  • 代理IP对网络爬虫的影响有哪些
    这篇文章主要介绍“代理IP对网络爬虫的影响有哪些”,在日常操作中,相信很多人在代理IP对网络爬虫的影响有哪些问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法,希望对大家解答”代理IP对网络爬虫的影响有哪些”的疑惑有所帮助!接下来...
    99+
    2023-06-20
  • Python3网络爬虫入门知识点有哪些
    本篇内容介绍了“Python3网络爬虫入门知识点有哪些”的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅读,能够学有所成!  ...
    99+
    2024-04-02
  • 关于Python网络爬虫requests库的介绍
    1. 什么是网络爬虫 简单来说,就是构建一个程序,以自动化的方式从网络上下载、解析和组织数据。 就像我们浏览网页的时候,对于我们感兴趣的内容我们会复制粘贴到自己的笔记本中,方便下次阅...
    99+
    2023-05-18
    Python网络爬虫 Python requests库
  • node实现爬虫的方式有哪些
    有以下几种方式可以使用node实现爬虫: 使用第三方库:可以使用node.js的第三方库如request、cheerio、pup...
    99+
    2024-03-08
    node
  • python网络爬虫之如何伪装逃过反爬虫程序的方法
    有的时候,我们本来写得好好的爬虫代码,之前还运行得Ok, 一下子突然报错了。 报错信息如下: Http 800 Internal internet error 这是因为你的对象网站设置了反爬虫程序,如果用现...
    99+
    2022-06-04
    爬虫 逃过 程序
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作