Python爬虫10-页面解析数据提取思

爬虫页面数据 2023-01-31 00:01:15 926人浏览安东尼

Python 官方文档：入门教程 => 点击学习

摘要

GitHub代码练习地址：正则1：https://github.com/Neo-ML/pythonPractice/blob/master/SpiderPrac15_RE1.py　　　　　　　　　　正则2：match、search、fi

GitHub代码练习地址：正则1：https://github.com/Neo-ML/pythonPractice/blob/master/SpiderPrac15_RE1.py
　　　　　　　　　　 正则2：match、search、findall函数的使用案例：Https://github.com/Neo-ML/PythonPractice/blob/master/SpiderPrac16_RE2.py

一、页面解析和数据提取

　　①结构化数据： 先有的结构，在谈数据
    　　JSON文件
          jsON Path
          转换成Python类型进行操作（json类）
    　　XML文件
          转换成python类型（xmltodict）
          XPath
          CSS选择器
          正则
　　 ②非结构化数据：先有数据，再谈结构
    　　　 文本
   　　    电话号码
   　　　  邮箱地址
          通常处理此类数据，使用正则表达式
    　　   html文件
        　　正则
        　　XPath
        　　CSS选择器

二、正则简单应用

正则表达式：一套规则，可以在字符串文本中进行搜查替换等

python中正则模块是re

使用大致步骤：
　　1. compile函数将正则表达式的字符串编译为一个Pattern对象
　　2. 通过Pattern对象的一些列方法对文本进行匹配，匹配结果是一个Match对象
　　3. 用Match对象的方法，对结果进行操纵

正则常用方法：
    match: 从开始位置开始查找，一次匹配
    search：从任何位置查找，一次匹配， 案例v25
    findall： 全部匹配，返回列表, 案例v26
    finditer： 全部匹配，返回迭代器, 案例v26
    split： 分割字符串，返回列表
    sub：替换
匹配中文
    中文unicode范围主要在[u4e00-u9fa5]
    
贪婪与非贪婪模式
    贪婪模式： 在整个表达式匹配成功的前提下，尽可能多的匹配
    非贪婪模式： xxxxxxxxxxxxxxxxxxxxxx, 尽可能少的匹配
    python里面数量词默认是贪婪模式
    例如：
        查找文本abbbbbbccc
        re是 ab*（*表示可以有一个或多个，也可以没有）
        贪婪模式： 结果是abbbbbb
        非贪婪： 结果是a

您可能感兴趣的文档:

--结束END--

本文标题: Python爬虫10-页面解析数据提取思

本文链接: https://lsjlt.com/news/181436.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

猜你喜欢

Python爬虫10-页面解析数据提取思

GitHub代码练习地址：正则1：https://github.com/Neo-ML/PythonPractice/blob/master/SpiderPrac15_RE1.py　　　　　　　　　　正则2：match、search、fi...

99+

2023-01-31

爬虫页面数据
python爬虫爬取网页数据并解析数据

本篇文章给大家带来了关于Python的相关知识，主要介绍了python爬虫如何爬取网页数据并解析数据，帮助大家更好的利用爬虫分析网页，下面一起来看一下，希望对大家有帮助。【相关推荐：Python3视频教程】1.网络爬虫的基本概念网络爬虫（...

99+

2022-08-15

python
Python抓取框架Scrapy爬虫入门：页面提取

前言 Scrapy是一个非常好的抓取框架，它不仅提供了一些开箱可用的基础组建，还能够根据自己的需求，进行强大的自定义。本文主要给大家介绍了关于Python抓取框架Scrapy之页面提取的相关内容，分享出来供...

99+

2022-06-04

爬虫框架入门
Python爬虫之解析HTML页面详解

目录用Python解析HTML页面HTML 页面的结构XPath 解析CSS 选择器解析正则表达式解析总结用Python解析HTML页面在网络爬取的过程中，我们通常需要对所爬取的页...

99+

2023-05-18

Python解析HTML Python爬虫HTML
Python 爬虫：如何用 BeautifulSoup 爬取网页数据

在网络时代，数据是最宝贵的资源之一。而爬虫技术就是一种获取数据的重要手段。Python 作为一门高效、易学、易用的编程语言，自然成为了爬虫技术的首选语言之一。而 BeautifulSoup 则是 Py...

99+

2023-10-23

python 爬虫 beautifulsoup
Python爬虫爬取豆瓣电影之数据提取值

工具：Python 3.6.5、PyCharm开发工具、Windows 10 操作系统、谷歌浏览器目的：爬取豆瓣电影排行榜中电影的title、链接地址、图片、评价人数、评分等网址：https://movie.douban.com/ch...

99+

2023-01-30

爬虫豆瓣数据
Python爬虫爬取百度翻译之数据提取方

工具：Python 3.6.5、PyCharm开发工具、Windows 10 操作系统说明：本例为实现输入中文翻译为英文的小程序，适合Python爬虫的初学者一起学习，感兴趣的可以做英文翻译为中文的功能，如单词查询功能等。推荐使用谷歌浏...

99+

2023-01-30

爬虫数据 Python
爬虫解析提取数据的方法有哪些

本篇文章为大家展示了爬虫解析提取数据的方法有哪些，内容简明扼要并且容易理解，绝对能使你眼前一亮，通过这篇文章的详细介绍希望你能有所收获。一、分析网页以经典的爬取豆瓣电影 Top250 信息为例。每条电影信息在 ol class ...

99+

2023-06-15
python爬虫之bs4数据解析

一、实现数据解析因为正则表达式本身有难度，所以在这里为大家介绍一下 bs4 实现数据解析。除此之外还有 xpath 解析。因为 xpath 不仅可以在 python 中使用，所以 bs4 和正则解析一样，仅仅是简...

99+

2022-06-02

python bs4数据解析 python bs4 python爬虫
Python 爬虫网页内容提取工具xpath

上一节，我们详述了lxml.html的各种操作，接下来我们熟练掌握一下XPath，就可以熟练的提取网页内容了。XPath 是什么？XPath的全称是 XML Path Language，即XML 路径语言，是一种在XML（HTML）文档中查...

99+

2023-06-02
python爬虫爬取赶集网数据

一.创建项目 scrapy startproject putu 二.创建spider文件 scrapy genspider patubole patubole.com 三.利用chrome浏览器分析出房价和标题的两个字段的x...

99+

2023-01-31

爬虫数据赶集网
Python爬虫：导出爬取的数据

最近想要做一个爬虫，检验一下Python的学习成果，眼看快要做完了，又遇到了问题，想要导出爬取的数据就必须要了解CSV文件，可是！下面是我百度出的结果！啊啊啊啊！作为一枚小白，我看不懂百科在说些什么？！后来，在网上发现一个讲爬...

99+

2023-01-31

爬虫数据 Python
爬虫之数据解析

　　一、啥是数据解析　　在上一篇关于爬虫的博客里，我提到过，整个爬虫分为四个部分，上一篇博客已经完成了前两步，也就是我说的最难的地方，接下来这一步数据解析不是很难，但就是很烦人，但只要你有耐心，一步一步查找、排除就会提取出目标信息，这一...

99+

2023-01-30

爬虫数据
Python怎么爬虫网页数据

在Python中，可以使用多种库和框架来实现网页数据的爬取，其中最常用的是requests和BeautifulSoup库。以下是一个...

99+

2023-09-04

python
怎么使用python爬虫爬取数据

本篇内容介绍了“怎么使用python爬虫爬取数据”的有关知识，在实际案例的操作过程中，不少人都会遇到这样的困境，接下来就让小编带领大家学习一下如何处理这些情况吧！希望大家仔细阅读，能够学有所成！python爬出六部曲第一步：安装reques...

99+

2023-06-29
python爬虫如何获取数据

使用Python爬虫获取数据可以分为以下几个步骤：导入所需的库：通常情况下，使用requests库发送HTTP请求获取网页内容，...

99+

2024-02-29

python
python爬虫数据是什么意思

Python爬虫数据指的是使用Python编程语言编写的一种程序，通过模拟浏览器的行为，自动抓取互联网上的各种数据。这些数据可以是网...

99+

2023-09-22

python
【Python爬虫】数据解析之bs4解析和xpath解析

🔥一个人走得远了，就会忘记自己为了什么而出发，希望你可以不忘初心，不要随波逐流，一直走下去🎶 🦋 欢迎关注🖱点赞👍收...

99+

2023-09-06

python 爬虫开发语言
Python爬虫与数据分析之爬虫技能：u

专栏目录： Python爬虫与数据分析之python教学视频、python源码分享，python Python爬虫与数据分析之基础教程：Python的语法、字典、元组、列表 Python爬虫与数据分析之进阶教程：文件操作、lambda表达...

99+

2023-01-31

爬虫技能数据
pyhon爬虫—爬取原创力文档（全面解析）

目录前言环境准备一、分析网页结构判断网页为静态还是动态二、编写代码请求网址，解析数据循环获取全部数据下载文档图片三、优化代码目的实现过程补充小结前言寒假时收到了一个小任务，在百度上下载一些“规范文档”。阴...

99+

2024-04-02