python 爬虫利器优美的Beauti

爬虫利器优美 2023-01-31 06:01:26 805人浏览泡泡鱼

Python 官方文档：入门教程 => 点击学习

摘要

近期在研究py的网络编程，编写爬虫也是顺利成章的，开始在纠结与用正则表达式来匹配，到后来发现了Beautifulsoup，用他可以非常完美的帮我完成了这些任务： Beautiful Soup 是用python写的一个ht

近期在研究py的网络编程，编写爬虫也是顺利成章的，开始在纠结与用正则表达式来匹配，到后来发现了Beautifulsoup，用他可以非常完美的帮我完成了这些任务：

Beautiful Soup 是用python写的一个html/XML的解析器，它可以很好的处理不规范标记并生成剖析树(parse tree)。它提供简单又常用的导航（navigating），搜索以及修改剖析树的操作。它可以大大节省你的编程时间。

简单使用说明：

>>> from bs4 import BeautifulSoup
>>> html_doc = """
... <html><head><title>The DORMouse's story</title></head>
...  
... <p class="title"><b>The Dormouse's story</b></p>
...  
... <p class="story">Once upon a time there were three little sisters; and their names were
... <a href="Http://example.com/elsie" class="sister" id="link1">Elsie</a>,
... <a href="http://example.com/lacie" class="sister" id="link2">Lacie</a> and
... <a href="http://example.com/tillie" class="sister" id="link3">Tillie</a>;
... and they lived at the bottom of a well.</p>
...  
... <p class="story">...</p>
... """
>>> soup = BeautifulSoup(html_doc)
>>> soup.head()
[<title>The Dormouse's story</title>]
>>> soup.title
<title>The Dormouse's story</title>
>>> soup.title.string
u"The Dormouse's story"
>>> soup.body.b
<b>The Dormouse's story</b>
>>> soup.body.a
<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>
>>> soup.get_text()
u"... The Dormouse's story\n...  \n... The Dormouse's story\n...  \n... Once upon a time there were three little sisters; and their names were\n... Elsie,\n... Lacie and\n... Tillie;\n... and they lived at the bottom of a well.\n...  \n... ...\n... "
>>> soup.find_all('a')
[<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>, <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>, <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>]
>>> for key in soup.find_all('a'):
...     print key.get('class'),key.get('href')
... 
['sister'] http://example.com/elsie
['sister'] http://example.com/lacie
['sister'] http://example.com/tillie

###通过里面的方法，可以很快调出里面的元素和结果：

简单说明：

soup.body：表示显示body标签下面的内容，也可以用.来叠加标签：

soup.title.string:表示现在titile的文本内容

soup.get_text()：表示显示所有文本内容：

soup.find_all():方式可以随意组合，也可以通过任意标签，包括class，id 等方式：

举例说明：以我常常看的直播表新闻为例；

1、首先看看我们要获得的内容：

我要获取的是上面那一栏热点新闻：如世预赛国足不敌卡塔而

2、源代码查看：

<div class="fb_bbs"><a href="http://news.zhibo8.cc/zuqiu/" style="padding: 0 5px 0 0;" target="_blank" title="足球新闻"><img src="/CSS/p_w_picpaths/football.png"/></a><span><a href="http://news.zhibo8.cc/zuqiu/" target="_blank"><font color="red"> 世预赛：国足0-1不敌卡塔
尔</font></a>|<a href="http://news.zhibo8.cc/zuqiu/2015-10-09/5616a910d74ac.htm" target="_blank">国足“刷卡”耻辱：11年不胜</a>|<a hf="http://news.zhibo8.cc/zuqiu/2015-10-09/5616b22cbd134.htm" target="_blank">切尔西签下阿梅利亚</a>|<a href="http://news.zhibo8.cc/zuqiu/2015-10-09/5616daa45ee48.htm" target="_blank">惊人！莱万5场14球</a>|<a href="http://tu.zhibo8.cc/zuqiu/" target="_blank">图-FIFA16中国球员</a></span></div>

###从源码看到，这个是一个div 标签包裹的一个class=“fb_bbs”的版块，当然我们要确保这个是唯一的。

3、用BeautifulSoup来分析出结果代码如下：

#coding=utf-8
import urllib,urllib2
from bs4 import BeautifulSoup
try:
    html = urllib2.urlopen("http://www.zhibo8.cc")
except urllib2.HTTPError as err:
    print str(err)
soup = BeautifulSoup(html)
for i in soup.find_all("div",attrs={"class":"fb_bbs"}):
    result = i.get_text().split("|")
    for term in result:
        print term
 
4、执行效果：
 
 [root@master network]# Python url.py 
世预赛：国足0-1不敌卡塔尔
国足“刷卡”耻辱：11年不胜
切尔西签下阿梅利亚
惊人！莱万5场14球
图-FIFA16中国球员
利物浦官方宣布克洛普上任
档案：克洛普的安菲尔德之旅
欧预赛-德国爆冷0-1爱尔兰
葡萄牙1-0胜丹麦
图-穆帅难罢手

到此任务差不多完成，代码量比re模块少了很多，而且简洁唯美，用py做爬虫确实是个利器；

您可能感兴趣的文档:

--结束END--

本文标题: python 爬虫利器优美的Beauti

本文链接: https://lsjlt.com/news/189708.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

猜你喜欢

python 爬虫利器优美的Beauti

近期在研究py的网络编程，编写爬虫也是顺利成章的，开始在纠结与用正则表达式来匹配，到后来发现了Beautifulsoup，用他可以非常完美的帮我完成了这些任务： Beautiful Soup 是用Python写的一个HT...

99+

2023-01-31

爬虫利器优美
Python 爬虫利器 Selenium

前面几节，我们学习了用 requests 构造页面请求来爬取静态网页中的信息以及通过 requests 构造 Ajax 请求直接获取返回的 JSON 信息。还记得前几节，我们在构造请求时会给请求加上浏览器 headers,目的就是为了让...

99+

2023-01-30

爬虫利器 Python
python: 爬虫利器requests

requests并不是系统自带的模块，他是第三方库，需要安装才能使用闲话少说，来，让我们上代码：简单的看一下效果： import requests requests = requests.session() headers = { ...

99+

2023-01-31

爬虫利器 python
Python爬虫利器二之Beautif

上一节我们介绍了正则表达式，它的内容其实还是蛮多的，如果一个正则匹配稍有差池，那可能程序就处在永久的循环之中，而且有的小伙伴们也对写正则表达式的写法用得不熟练，没关系，我们还有一个更强大的工具，叫Beautiful Soup，有了它我们可...

99+

2023-01-31

爬虫利器 Python
python优雅地爬虫

申明：仅用作学习用途，不提供任何的商业价值。背景我需要获得新闻，然后tts，在每天上班的路上可以听一下。具体的方案后期我也会做一次分享。先看我喜欢的万能的老路：获得html内容-> pyth...

99+

2023-08-31

python 爬虫开发语言
Python音乐爬虫完美绕过反爬

目录前言开始分析（x0）分析（x1）分析（x2）分析（x3）分析（x4）通过分析获取到音乐JavaScript绕过之参数冗余CSRF攻击与防御总结代码前言大家好，我叫善念。这是我...

99+

2024-04-02
python制作最美应用的爬虫

安卓最美应用页面爬虫，爬虫很简单，设计的东西到挺多的文件操作正则表达式字符串替换等等 import requests import re url = "http://zuimeia.com" r ...

99+

2022-06-04

爬虫最美 python
Python爬虫：爬取美拍小姐姐视频

最近在写一个应用，需要收集微博上一些热门的视频，像这些小视频一般都来自秒拍，微拍，美拍和新浪视频，而且没有下载的选项，所以只能动脑想想办法了。第一步分析网页源码。例如：http://video.weibo.com/show...

99+

2023-01-30

爬虫姐姐视频
如何用Python爬虫爬取美剧网站

如何用Python爬虫爬取美剧网站，很多新手对此不是很清楚，为了帮助大家解决这个难题，下面小编将为大家详细讲解，有这方面需求的人可以来学习下，希望你能有所收获。爬虫爬取美剧网站！【前言】一直有爱看美剧的习惯，一方面锻炼一下英语听力，一方面打...

99+

2023-06-02
Python爬虫爬取美剧网站的实现代码

一直有爱看美剧的习惯，一方面锻炼一下英语听力，一方面打发一下时间。之前是能在视频网站上面在线看的，可是自从广电总局的限制令之后，进口的美剧英剧等貌似就不在像以前一样同步更新了。但是，作为一个宅diao的我又...

99+

2022-06-04

爬虫美剧代码
新一代爬虫利器Python Playwright详解

目录安装方式特点使用方式代码生成选择器事件监听总结 Playwright是Microsoft在2020年初开源的新一代自动化测试工具，它的功能类似于Selenium、Pyppetee...

99+

2024-04-02
Python制作爬虫抓取美女图

　　作为一个新世纪有思想有文化有道德时刻准备着的潘磕星嗄辏谙衷谡庋桓錾缁嶂校奶畚掖舐サ种拼蟀俣鹊那疤嵯拢皇露仙贤涔Y看看斗鱼翻翻美女图片那是必不可少的，可是美图虽多翻页费劲！今天我们就搞个爬虫把美图都给扒下...

99+

2022-06-04

爬虫美女图 Python
Python爬虫入门教程 3-100 美

美空网数据----简介从今天开始，我们尝试用2篇博客的内容量，搞定一个网站叫做“美空网”网址为：http://www.moko.cc/，这个网站我分析了一下，我们要爬取的图片在下面这个网址 http://www.moko.cc/p...

99+

2023-01-30

爬虫入门教程 Python
requests-html爬虫利器介绍

爬虫用的最多的包无非就是requests, urllib,然后再利用pyquery或者bs4,xpath再去整理提取需要的目标数据。在requests-html里面只需要一步就可以完成而且可以直接进行js渲染.requests的作者Kenn...

99+

2023-01-30

爬虫利器 requests
Python爬虫之教你利用Scrapy爬取图片

目录Scrapy下载图片项目介绍使用Scrapy下载图片项目创建项目预览创建爬虫文件项目组件介绍Scrapy爬虫流程介绍页面结构分析最终目录树项目运行爬取结果后记Scrapy下载图片...

99+

2024-04-02
python爬虫之利用Selenium+Requests爬取拉勾网

目录一、前言二、分析url三、获取所有城市和页数四、生成params参数五、获取数据六、总结一、前言利用selenium+requests访问页面爬取拉勾网招聘信息二、分析url...

99+

2024-04-02
如何利用Python爬虫爬取网站音乐

小编给大家分享一下如何利用Python爬虫爬取网站音乐，相信大部分人都还不怎么了解，因此分享这篇文章给大家参考一下，希望大家阅读完这篇文章后大有收获，下面让我们一起去了解一下吧！具体实现引入发送网络请求的第三方库import re...

99+

2023-06-15
Python爬虫：python获取各种街拍美图

抓包...

99+

2023-06-02
Python爬虫3-parse编码与利用

GitHub代码练习地址：①利用parse模拟post请求：https://github.com/Neo-ML/PythonPractice/blob/master/SpiderPrac04_parse-post.py　　　　　　　　　　...

99+

2023-01-30

爬虫 Python parse
Python爬虫-01：爬虫的概念及分类

目录 # 1. 为什么要爬虫 2. 什么是爬虫？ 3. 爬虫如何抓取网页数据？ # 4. Python爬虫的优势？ ...

99+

2023-01-30

爬虫概念 Python