返回顶部
首页 > 资讯 > 后端开发 > Python >python网络爬虫精解之正则表达式的使用说明
  • 244
分享到

python网络爬虫精解之正则表达式的使用说明

2024-04-02 19:04:59 244人浏览 八月长安

Python 官方文档:入门教程 => 点击学习

摘要

目录一、常见的匹配规则二、常见的匹配方法1、match()2、search()3、findall()4、sub()5、compile()一、常见的匹配规则 二、常见的匹配方法 1、

一、常见的匹配规则

在这里插入图片描述

二、常见的匹配方法

1、match()

match()方法从字符串的起始位置开始匹配,该方法有两个参数,第一个是正则表达式,第二个是需要匹配的字符串;


re.match(正则表达式,字符串)

如果该方法匹配成功,返回的是SRE_Match对象,如果未匹配到,则返回None。

返回成功后有两个方法,group()方法用来查看匹配到的字符串,span()方法用来输出匹配的范围。


import re
content = 'Hello_World,123 456'
result = re.match('^Hello\w{6}\W\d\d\d\s\d{3}',content)
print(result)
print(result.group())
print(result.span())

【运行结果】

<re.Match object; span=(0, 19), match='Hello_World,123 456'>
Hello_World,123 456
(0, 19)

子字符串匹配

在上述我们匹配到了完整的字符串,但是实际需求中可能只需要其中的一部分,这时我们仅需要在要获取的子字符串匹配时加上括号即可。


import re
content = 'Hello_World,123 456'
result = re.match('^Hello\w{6}\W(\d+)\s(\d{3})',content)
print(result)
print(result.group())
print(result.span())
print(result.group(1))
print(result.group(2))

【运行结果】

<re.Match object; span=(0, 19), match='Hello_World,123 456'>
Hello_World,123 456
(0, 19)
123
456

这样通过加括号的形式,将字符串中的数字匹配出来。

通用匹配符

.* 其中.用来匹配任意字符(除换行符),*代表前面出现的字符无限次。因此之前的匹配形式可以写为:


import re
content = 'Hello_World,123 456'
result = re.match('^Hello\.*456$',content)
print(result.group())

【运行结果】

Hello_World,123 456

贪婪匹配和非贪婪匹配

.*匹配是贪婪匹配

.*?是非贪婪匹配

二者的主要区别是,贪婪匹配尽可能多的去匹配字符,而非贪婪匹配是尽可能少的匹配字符。下列代码能够更直观的了解二者之间的区别


import re
content = 'number 12345678 test'
result_1 = re.match('^number.*(\d+).*test$',content)
print('贪婪匹配得到的数字:' + result_1.group(1))
result_2 = re.match('^number.*?(\d+).*test$',content)
print('非贪婪匹配得到的数字:' + result_2.group(1))

【运行结果】

贪婪匹配得到的数字:8
非贪婪匹配得到的数字:12345678

大家会有这样一个疑问为什么贪婪匹配得到的数字少,而非贪婪匹配得到的多,这与前面讲的不太符合啊。

注意,在匹配的时候,贪婪匹配是尽可能多的去匹配字符,因此.*就匹配的是' 1234567‘,只留下8给\d+匹配,非贪婪匹配是尽可能少的匹配字符,故.*?匹配的是' ',留下12345678给\d+匹配,就会得到上述结果。

修饰符

修饰符 作用
re.I 忽略大小写进行匹配
re.L 做本地化识别匹配
re.M 多行匹配,影响^和$
re.S 使.匹配包含换行符在内的所有字符
re.U 根据Unicode字符集解析字符
re.X 更加灵活的编写正则表达式

转义匹配

匹配特殊字符时,在其前面加反斜线(\)完成转义匹配。

2、search()

在匹配时会扫描整个字符串,然后返回第一个成功匹配的结果。如果将整个字符串搜索完了之后还是没有匹配到,则返回None。

3、findall()

与search()不同的是,findall()方法是将返回所有符合正则表达式匹配的内容。返回结果是一个列表,列表中的每个元素都是元组类型。

4、sub()

修改文本内容,原理是对要修改的内容进行替换。


import re
temp = "abcdef123ghi456"
temp = re.sub("\d+","",temp)
print(temp)

【运行结果】

abcdefghi

sub()中的参数分析,第一个参数是正则表达式匹配要更改的内容,第二个参数是使用该参数内容进行替换,第三个参数是要更改的字符串。

5、compile()

将正则字符串编译成正则表达式对象,以便在后面的匹配中进行复用。

到此这篇关于python网络爬虫精解之正则表达式的使用说明的文章就介绍到这了,更多相关Python 正则表达式内容请搜索编程网以前的文章或继续浏览下面的相关文章希望大家以后多多支持编程网!

--结束END--

本文标题: python网络爬虫精解之正则表达式的使用说明

本文链接: https://lsjlt.com/news/136822.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

猜你喜欢
  • python网络爬虫精解之正则表达式的使用说明
    目录一、常见的匹配规则二、常见的匹配方法1、match()2、search()3、findall()4、sub()5、compile()一、常见的匹配规则 二、常见的匹配方法 1、...
    99+
    2024-04-02
  • python网络爬虫精解之pyquery的使用说明
    目录一、pyquery的介绍二、pyquery的使用1、初始化工作字符串URL文件初始化2、查找节点(1)查找子节点(2)匹配父节点(3)匹配兄弟节点3、遍历4、获取信息(1)获取属...
    99+
    2024-04-02
  • python网络爬虫精解之XPath的使用说明
    目录一、XPath的介绍二、XPath使用1、选取所有节点2、获取子节点3、获取父节点4、属性匹配5、文本获取6、属性获取7、属性多值匹配8、多属性匹配9、按序选择10、节点轴选择X...
    99+
    2024-04-02
  • python网络爬虫精解之Beautiful Soup的使用说明
    目录一、Beautiful Soup的介绍二、Beautiful Soup的使用1、节点选择器2、提取信息3、关联选择4、方法选择器5、CSS选择器一、Beautiful Soup的...
    99+
    2024-04-02
  • Python爬虫之正则表达式(1)
    廖雪峰正则表达式学习笔记 1:用\d可以匹配一个数字;用\w可以匹配一个字母或数字; '00\d' 可以匹配‘007’,但是无法匹配‘00A’; ‘\d\d\d’可以匹配‘010’; ‘\w\w\d’可以匹配‘py3’; 2...
    99+
    2023-01-30
    爬虫 正则表达式 Python
  • python爬虫之解析库正则表达式
       上次说到了requests库的获取,然而这只是开始,你获取了网页的源代码,但是这并不是我们的目的,我们的目的是解析链接里面的信息,比如各种属性  @href  @class span  抑或是p节点里面的文本内容,但是我们需要一种工...
    99+
    2023-01-30
    爬虫 正则表达式 python
  • 玩转python爬虫之正则表达式
    面对大量杂乱的代码夹杂文字我们怎样把它提取出来整理呢?下面就开始介绍一个十分强大的工具,正则表达式! 1.了解正则表达式 正则表达式是对字符串操作的一种逻辑公式,就是用事先定义好的一些特定字符、及这些特定字...
    99+
    2022-06-04
    爬虫 玩转 正则表达式
  • 8.网络爬虫—正则表达式RE实战
    8.网络爬虫—正则表达式RE实战 正则表达式(Regular Expression)re.Ire.Are.Sre.Mre.Xre.Lre.U美某杰实战写入csv文件: 前言:...
    99+
    2023-09-07
    正则表达式 爬虫 python
  • Python 爬虫学习笔记之正则表达式
    正则表达式的使用 想要学习 Python 爬虫 , 首先需要了解一下正则表达式的使用,下面我们就来看看如何使用。 . 的使用这个时候的点就相当于一个占位符,可以匹配任意一个字符,什么意思呢?看个例子就知道 ...
    99+
    2022-06-04
    爬虫 学习笔记 正则表达式
  • Python爬虫正则表达式怎么理解
    本篇内容介绍了“Python爬虫正则表达式怎么理解”的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅读,能够学有所成!元字符^ $ * + . | {} [] ...
    99+
    2023-06-17
  • Pyhton爬虫知识之正则表达式详解
    目录前言1、正则表达式基础2、正则表达式的基本符号2.1 点号 “.”2.2 星号 “*”2.3 问号 “”2...
    99+
    2024-04-02
  • Python的爬虫包Beautiful Soup中用正则表达式来搜索
    Beautiful Soup使用时,一般可以通过指定对应的name和attrs去搜索,特定的名字和属性,以找到所需要的部分的html代码。 但是,有时候,会遇到,对于要处理的内容中,其name或attr的值...
    99+
    2022-06-04
    爬虫 中用 正则表达式
  • 怎么分析Python网络爬虫四大选择器正则表达式、BS4、Xpath、CSS
    怎么分析Python网络爬虫四大选择器正则表达式、BS4、Xpath、CSS,相信很多没有经验的人对此束手无策,为此本文总结了问题出现的原因和解决方法,通过这篇文章希望你能解决这个问题。今天小编来给大家总结一下这四个选择器,让大家更加深刻的...
    99+
    2023-06-04
  • Python中使用正则表达式及正则表达式匹配规则详解
    目录1 导库2 使用模板3 说明4 示例5 正则表达式匹配规则1 导库 import re 2 使用模板 re_pattern = re.compile(pattern, flags...
    99+
    2023-03-22
    Python正则表达式匹配规则 Python正则表达式
  • python 正则表达式的使用
    目录1、正则表达式 1.1 正则表达式字符串1.1.1 元字符1.1.2 字符转义1.1.3 开始与结束字符1.2 字符类1.2.1 定义字符类1.2.2 字符串取反1.2.3 区间...
    99+
    2024-04-02
  • python 中正则表达式的使用
    正则表达式(re)(Regular Expression)。正则表达式是对字符串操作的一种逻辑公式,就是用事先定义好的一些特定字符、及这些特定字符的组合,组成一个“规则字符串”,这个“规则字符串”用来表达对字符串的一种过滤逻辑。在pyth...
    99+
    2023-01-31
    正则表达式 python
  • Python语法学习之正则表达式的使用详解
    目录正则表达式中的特殊字符正则表达式的使用正则小案例 - 1正则小案例 - 2正则小案例 - 3要想成功的进行字符串的匹配需要使用到正则表达式模块,正则表达式匹配规则以及需要被匹配的...
    99+
    2024-04-02
  • Python正则表达式的使用教程
    这篇文章主要介绍“Python正则表达式的使用教程”,在日常操作中,相信很多人在Python正则表达式的使用教程问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法,希望对大家解答”Python正则表达式的使用教程”的疑惑有所帮助!...
    99+
    2023-06-16
  • 如何使用Python的正则表达式
    本篇内容主要讲解“如何使用Python的正则表达式”,感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷,实用性强。下面就让小编来带大家学习“如何使用Python的正则表达式”吧!一、正则表达式介绍1.学习爬虫,为什么必须会正则表达式?&n...
    99+
    2023-06-02
  • Python正则表达式的应用详解
    目录正则表达式的定义Python对正则表达式的支持示例例1:验证输入的用户名是否有效,用户名由长度为6到20的字母、数字、下划线组成例2:从字符串中找到与正则表达式匹配的部分例3:从...
    99+
    2024-04-02
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作