python_正则_re模块

正则模块 _re 2023-01-30 23:01:06 680人浏览薄情痞子

Python 官方文档：入门教程 => 点击学习

摘要

正则表达式元字符：字符匹配： . ：除换行符以外的任意单个字符 [] ：指定范围内字符 [^] ：指定范围外字符次数匹配： * ：任意次，0，1，多次 .* ：任意字符

正则表达式元字符：

字符匹配：

.       ：除换行符以外的任意单个字符
[]      ：指定范围内字符
[^]     ：指定范围外字符

次数匹配：

*       ：任意次，0，1，多次
.*      ：任意字符 任意次
?       ：至多1次或0次
+       ：至少出现1次或多次
{m}     ：其前面字符出现m次
{m,n}   ：其前面字符出现至少m次，至多n次
{m,}    ：其前面字符出现至少m次
{,n}    ：其前面字符出现至多n次

位置锚定：

^       ：匹配字符串的开头
$       ：匹配字符串的末尾

分组及引用：

()      ：分组，括号内模式会被记录于正则表达式引擎
后向引用 ：\1  \2  \3.....

或：

a|b     ：a或者b
C|cat   ：C或cat
(C|c)at ：Cat或cat

转义字符：

\w      ：匹配字母数字
\W      ：匹配非字母数字
\s      ：匹配任意空白字符，等价于 [\t\n\r\f].
\S      ：匹配任意非空字符
\d      ：匹配任意数字，等价于 [0-9].
\D      ：匹配任意非数字
\A      ：匹配字符串开始
\Z      ：匹配字符串结束，如果是存在换行，只匹配到换行前的结束字符串
\z      ：匹配字符串结束
\G      ：匹配最后匹配完成的位置。
\b      ：匹配一个单词边界，也就是指单词和空格间的位置。例如， 'er\b' 可以匹配"never" 中的 'er'，但不能匹配 "verb" 中的 'er'。
\B      ：匹配非单词边界。'er\B' 能匹配 "verb" 中的 'er'，但不能匹配 "never" 中的 'er'。
\n      ：匹配一个换行符
\t      ：匹配一个制表符
\1...\9 ：匹配第n个分组的子表达式

小练习:

判断手机号码是否合法

根据手机号码一共11位并且是只以13、14、15、17、18开头的数字：

import re
phone_number = input('please input your phone number ： ')
if re.match('^(13|14|15|17|18)[0-9]{9}$',phone_number):
        print('是合法的手机号码')
else:
        print('不是合法的手机号码')

匹配标签

import re


ret = re.search("<(?P<tag_name>\w+)>\w+</(?P=tag_name)>","<h1>hello</h1>")
#还可以在分组中利用?<name>的形式给分组起名字
#获取的匹配结果可以直接用group('名字')拿到对应的值
print(ret.group('tag_name'))  #结果 ：h1
print(ret.group())  #结果 ：<h1>hello</h1>

ret = re.search(r"<(\w+)>\w+</\1>","<h1>hello</h1>")
#如果不给组起名字，也可以用\序号来找到对应的组，表示要找的内容和前面的组内容一致
#获取的匹配结果可以直接用group(序号)拿到对应的值
print(ret.group(1))
print(ret.group())  #结果 ：<h1>hello</h1>

爬虫练习

import requests

import re
import JSON

def getPage(url):

    response=requests.get(url)
    return response.text

def parsePage(s):
    
    com=re.compile('<div class="item">.*?<div class="pic">.*?<em .*?>(?P<id>\d+).*?<span class="title">(?P<title>.*?)</span>'
                   '.*?<span class="rating_num" .*?>(?P<rating_num>.*?)</span>.*?<span>(?P<comment_num>.*?)评价</span>',re.S)

    ret=com.finditer(s)
    for i in ret:
        yield {
            "id":i.group("id"),
            "title":i.group("title"),
            "rating_num":i.group("rating_num"),
            "comment_num":i.group("comment_num"),
        }

def main(num):

    url='https://movie.douban.com/top250?start=%s&filter='%num
    response_html=getPage(url)
    ret=parsePage(response_html)
    print(ret)
    f=open("move_info7","a",encoding="utf8")

    for obj in ret:
        print(obj)
        data=json.dumps(obj,ensure_ascii=False)
        f.write(data+"\n")

if __name__ == '__main__':
    count=0
    for i in range(10):
        main(count)
        count+=25

豆瓣爬电影

import re
import json
from urllib.request import urlopen

def getPage(url):
    response = urlopen(url)
    return response.read().decode('utf-8')

def parsePage(s):
    com = re.compile(
        '<div class="item">.*?<div class="pic">.*?<em .*?>(?P<id>\d+).*?<span class="title">(?P<title>.*?)</span>'
        '.*?<span class="rating_num" .*?>(?P<rating_num>.*?)</span>.*?<span>(?P<comment_num>.*?)评价</span>', re.S)

    ret = com.finditer(s)
    for i in ret:
        yield {
            "id": i.group("id"),
            "title": i.group("title"),
            "rating_num": i.group("rating_num"),
            "comment_num": i.group("comment_num"),
        }


def main(num):
    url = 'Https://movie.douban.com/top250?start=%s&filter=' % num
    response_html = getPage(url)
    ret = parsePage(response_html)
    print(ret)
    f = open("move_info7", "a", encoding="utf8")

    for obj in ret:
        print(obj)
        data = str(obj)
        f.write(data + "\n")

count = 0
for i in range(10):
    main(count)
    count += 25

简化版

您可能感兴趣的文档:

--结束END--

本文标题: python_正则_re模块

本文链接: https://lsjlt.com/news/180982.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

猜你喜欢

python_正则_re模块

正则表达式元字符：字符匹配： . ：除换行符以外的任意单个字符 [] ：指定范围内字符 [^] ：指定范围外字符次数匹配： * ：任意次，0，1，多次 .* ：任意字符 ...

99+

2023-01-30

正则模块 _re
Python_正则表达式

正则表达式：匹配字符串　　re.compile():用于编译正则表达式，生成一个正则表达式对象，供 match() 和 search() 两个函数使用，一般建议使用这种编译方式 1 import re 2 str = 'abc1de...

99+

2023-01-30

正则表达式
Python_模块介绍

模块：一组或者一个.py文件实现了某个功能的代码集合模块分为三种：自定义模块内置标准模块（又称标准库）：Python自带的模块开源模块：自己写的模块，有可以供人使用的功能开源模块的集散地：Python官网：pypi.pyth...

99+

2023-01-30

模块
Python 正则模块详情

目录1、正则表达式的装饰符2、查找单个匹配项2.2 group2.3 search2.4 fullmatch2.5 匹配对象3、查找多个匹配项3.1 compile3.2 finda...

99+

2024-04-02
python re模块正则表达式

导航： 1、正则表达式元字符2、预定义字符集3、re模块常用函数4、注意事项正则表达式在很多语言里都支持，python也不例外，re模块就是正则表达式的应用正则表达式对字符串的逻辑操作，主要是对字符串的一种过滤，用“元字符” 与“普通...

99+

2023-01-30

模块正则表达式 python
python3--re模块：正则表达式

怎么判断一个手机号码是否符合规范？根据手机号码一共11位并且只以13,14,15,18开头的数字这些特点，写了一段代码如下:while True: phone_number ...

99+

2023-01-30

模块正则表达式
python正则表达式模块re

正则表达式的特殊元素匹配符号描述 '.'(点dot) 在默认模式下，它匹配除换行符之外的任何字符。如果指定了DOTALL标志，则匹配包括换行符在内的任何字符 '^'(Caret) 匹配以字符串开头,...

99+

2023-01-30

模块正则表达式 python
关于Python正则表达式模块之re模块

目录前言：导入模块1.re.match() 函数（1）匹配单个字符（2）匹配多个字符字符功能/说明位置*(3) 匹配开头和结尾2.re.search() 函数3.re.findal...

99+

2023-05-16

Python正则表达式 Pythonre模块
python--模块之re正则表达式

简介：正则表达式本身是一个小型的、高度专业化的编程语言，而在python中，通过内嵌集成re模块，我们可以通过直接调用来实现正则匹配。正则表达式基础知识： --普通字符匹配自身 abc ----abc --元字符 . :匹...

99+

2023-01-30

模块正则表达式 python
python模块之re（正则表达式）

匹配模式 re.ASCII同re.A，对应的内联标识为(a)，用于向后兼容。使元字符\w, \W, \b, \B, \d, \D, \s和\S仅匹配ASCII字符。该模式只在string模式下有意义，在byte模式下将被忽略。 re.DE...

99+

2023-01-31

模块正则表达式 python
Python中的re正则表达式模块

一、re模块的基本使用 Python里数量词默认是贪婪的，总是尝试匹配尽可能多的字符。正则表达式是用来匹配处理字符串的。假如你需要匹配文本中的字符\，Python里的使用原生字符串...

99+

2024-04-02
python模块之re正则表达式详解

一、简单介绍正则表达式是一种小型的、高度专业化的编程语言，并不是python中特有的，是许多编程语言中基础而又重要的一部分。在python中，主要通过re模块来实现。正则表达式模式被编译成一系列的字节码...

99+

2022-06-04

详解模块正则表达式
Python的re模块正则表达式操作

这个模块提供了与 Perl 相似l的正则表达式匹配操作。Unicode字符串也同样适用。正则表达式使用反斜杠" "来代表特殊形式或用作转义字符，这里跟Python的语法冲突，因此，Python用" \...

99+

2022-06-04

模块操作正则表达式
Python正则表达中re模块的使用

目录01、正则表达式1.1、限定匹配数量规则1.2、原生字符串1.3、分组匹配1.4、编译函数compile1.5贪婪模式和非贪婪模式01、正则表达式学习正则表达式操作字符串，re...

99+

2024-04-02
python3 re模块正则匹配字符串中

匹配时间： # -*- coding:utf-8 -*- import re def parseDate(l): patternForTime = r'(\d{4}[\D]\d{1,2}[\D]\d{1,2}[\D])' ...

99+

2023-01-31

正则字符串模块
详细解析python正则表达式re模块

本篇文章给大家带来了关于python的相关知识，其中主要介绍了关于正则表达式中re模块的相关问题，下面一起来看一下，希望对大家有帮助。在Python中需要通过正则表达式对字符串进⾏匹配的时候，可以使⽤⼀个python自带的模块，名字为re。...

99+

2022-06-14

python
python的正则表达式和re模块详解

目录一、正则表达式基础二、python re模块三、进阶总结一、正则表达式基础二、python re模块注意：正则表达式 != re eg: 注意：如果返回的是对象，则需要...

99+

2024-04-02
如何分析Python正则表达式re模块

本篇文章为大家展示了如何分析Python正则表达式re模块，内容简明扼要并且容易理解，绝对能使你眼前一亮，通过这篇文章的详细介绍希望你能有所收获。简介正则表达式（regular expression）是可以匹配文本片段的模式。最简单的正则表...

99+

2023-06-17
python正则表达式re模块怎么使用

这篇文章主要介绍“python正则表达式re模块怎么使用”，在日常操作中，相信很多人在python正则表达式re模块怎么使用问题上存在疑惑，小编查阅了各式资料，整理出简单好用的操作方法，希望对大家解答”python正则表达式re模块怎么使用...

99+

2023-07-02
python正则表达式(re模块)的使用详解

目录前言re.match函数匹配单个字符匹配多个字符匹配开头结尾匹配分组re.compile 函数re.search函数re.findall函数re.finditer函数re.sub...

99+

2024-04-02