返回顶部
首页 > 资讯 > 后端开发 > 其他教程 >C语言字符串的模式匹配之BF与KMP
  • 929
分享到

C语言字符串的模式匹配之BF与KMP

2024-04-02 19:04:59 929人浏览 安东尼
摘要

目录BF算法(Brute-Force算法)KMP算法(快速的)KMP—yxc模板总结确定一个子串(模式串)在主串中第一次出现的位置。 BF算法(Brute-Force算法) BF算法

确定一个子串(模式串)在主串中第一次出现的位置。

BF算法(Brute-Force算法)

BF算法即朴素的简单匹配法,采用的是穷举的思路。从主串的每一个字符开始依次与模式串的字符进行比较。

在这里插入图片描述

在这里插入图片描述


int index_BF(SeqString S, SeqString T, int begin)//从S的第begin位(下标)开始进行匹配判断 
{
	int i = begin, j = 0;
	while (i < S.length && j < T.length)
	{
		if (S.ch[i] == T.ch[j]) 
		{
			i ++; 
			j ++;//比较下一个字符 
		}
		else 
		{
			i = i - j + 1;
			j = 0;//模式串回溯到起点 
		}
	}
	if (j == T.length) return i - T.length; //匹配成功,则返回该模式串在主串中第一次出现的位置下标
	else return -1; 
} 

int index_BF(char S[], char T[], int beg)
{
	int i = beg, j = 0;
	while (i < strlen(S) && j < strlen(T))
	{
		if (S[i] == T[j])
		{
			i ++;
			j ++;
		}
		else 
		{
			i = i - j + 1;
			j = 0;
		}
	}
	if (i == strlen(S)) return i - strlen(T);
	else return -1;
}
int main()
{
	char str1[10] = "abcde";
	char str2[10] = "cde";
	printf("%d", index_BF(str1, str2, 0));
	return 0;
} 

KMP算法(快速的)

基本思想为:主串的指针 i i i不必回溯,利用已经得到前面“部分匹配”的结果,将模式串向右滑动若干个字符,继续与主串中的当前字符进行比较,减少了一些不必要的比较。

时间复杂度为 O ( n + m )

KMP算法的核心,是一个被称为部分匹配表(Partial Match Table)的数组

首先要明白什么是字符串的前缀和后缀。
如果字符串A和B,存在A=BS,其中S是任意的非空字符串,那就称B为A的前缀。例如,”Harry”的前缀包括{”H”, ”Ha”,”Har”, ”Harr”},我们把所有前缀组成的集合,称为字符串的前缀集合。
同样可以定义后缀A=SB,其中S是任意的非空字符串,那就称B为A的后缀,例如,”Potter”的后缀包括{”otter”, ”tter”, ”ter”, ”er”, ”r”},然后把所有后缀组成的集合,称为字符串的后缀集合。
要注意的是,字符串本身并不是自己的前缀或后缀

PMT中的值是字符串的前缀集合与后缀集合的交集中最长元素的长度。

比如,对于字符串”ababa”,它的前缀集合为{”a”, ”ab”, ”aba”, ”abab”},它的后缀集合为{”baba”, ”aba”, ”ba”, ”a”}, 两个集合的交集为{”a”, ”aba”},其中最长的元素为”aba”,长度为3,即该字符串在PMT表中的值为3。性质为:该字符串前3个字符与后三个字符相同。

如果模式串有 j个字符,则PMT表中就有 j 个数值。其中第一个数值总为0。

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述


int index_KMP(SeqString S, SeqString T, int begin)//从S的第begin位(下标)开始进行匹配判断 
{
	int i = begin, j = 0;
	while (i < S.length && j < T.length)
	{
		if (j == -1 || S.ch[i] == T.ch[j]) 
		{
			i ++; 
			j ++;
		}
		else j = next[j];//即PMT[j-1] 
	}
	if (j == T.length) return i - T.length; //匹配成功,则返回该模式串在主串中第一次出现的位置下标 
	else return -1; 
} 

那么该如何求出next数组呢?

在这里插入图片描述

其实,求next数组的过程完全可以看成字符串匹配的过程,即以模式字符串为主字符串,以模式字符串的前缀为目标字符串,一旦字符串匹配成功,那么当前的next值就是匹配成功的字符串的长度。
具体来说,就是从模式字符串的第一位(注意,不包括第0位)开始对自身进行匹配运算。 在任一位置,能匹配的最长长度就是当前i位置的next值。如下图所示。

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述


void GetNext(SeqString T, int next[])
{
	next[0] = -1;
	int j = 0, k = -1;//起始时k落后j一位 
	while (j < T.length)//j遍历一遍模式串,对于每个字符得到该位置的next数组的值 
	{
		if (k == -1 || T.ch[j] == T.ch[k])
		{
			j ++;
			next[j] = k + 1;//将j视为指向一个子串(后缀)结束后的下一个字符,k指向一个子串(前缀)的最后一个字符,则这两个子串的重叠部分的长度(k下标从0开始)即PMT[j-1]的值 	
			k ++;
		
		}
		else k = next[k];//k回溯,即将第二个子串(右滑)(减小匹配的前缀长度) 
	}
}

即:


#include <stdio.h>
#include <string.h>
int next[10];//全局数组 
void GetNext(char T[])
{ 
	int j = 0, k = -1; 
	next[0] = -1;
	while (j < strlen(T))
	{
		if (k == -1 || T[j] == T[k])
		{
			j ++;
			next[j] = k + 1;
			k ++;
		}
		else k = next[k]; 
	}
}
int index_KMP(char S[], char T[], int begin)//从S的第begin位(下标)开始进行匹配判断 
{
	int i = begin, j = 0;
	while (i < strlen(S) && strlen(T))
	{
		if (j == -1 || S[i] == T[j]) 
		{
			i ++; 
			j ++;
		}
		else j = next[j];//即PMT[j-1] 
	}
	if (j == strlen(T)) return i - strlen(T); //匹配成功,则返回该模式串在主串中第一次出现的位置下标 
	else return -1; 
} 
int main()
{
	char str1[10] = "abcde";
	char str2[10] = "cde";
	GetNext(str2);
	printf("%d", index_KMP(str1, str2, 0));
	return 0;
} 

求next数组的方法也可进行优化

在这里插入图片描述


void GetNextVal(SeqString T, int nextval[])
{
	nextval[0] = -1;
	int j = 0, k = -1;
	while (j < T.length)
	{
		if (k == -1 || T.ch[j] == T.ch[k])
		{
			j ++;
			k ++;
			if (T.ch[j] != T.ch[k]) 
				nextval[j] = k;
			else 
				nextval[j] = nextval[k];
		}
		else k = nextval[k];
	}
}

即:


int nextval[10];//全局数组 
void GetNextVal(char T[])
{ 
	int j = 0, k = -1; 
	nextval[0] = -1;
	while (j < strlen(T))
	{
		if (k == -1 || T[j] == T[k]) 
		{
			j ++;
			k ++;
			if (T[j] != T[k]) nextval[j] = k;
			else nextval[j] = nextval[k];
		}
		else k = nextval[k]; 
	}
}
int index_KMP(char S[], char T[], int begin)//从S的第begin位(下标)开始进行匹配判断 
{
	int i = begin, j = 0;
	while (i < strlen(S) && strlen(T))
	{
		if (j == -1 || S[i] == T[j]) 
		{
			i ++; 
			j ++;
		}
		else j = nextval[j]; 
	}
	if (j == strlen(T)) return i - strlen(T); //匹配成功,则返回该模式串在主串中第一次出现的位置下标 
	else return -1; 
} 
int main()
{
	char str1[10] = "abcde";
	char str2[10] = "bcde";
	GetNextVal(str2);
	printf("%d", index_KMP(str1, str2, 0));
	return 0;
} 

KMP—yxc模板

字符串从数组下标1开始存


#include <iOStream>
using namespace std;
const int M = 1000010, N = 100010;
char S[M], p[N];
int ne[N]; //全局变量数组,初始化全为0
int main()
{
    int m, n;
    cin >> m;
    for (int i = 1; i <= m; i ++) cin >> S[i];
    cin >> n;
    for (int i = 1; i <= n; i ++) cin >> p[i];//主串与模式串均由数组下标1开始存储
//  也可以简写为 cin >> m >> S + 1 >> n >> p + 1;           
    for (int i = 2, j = 0; i <= n; i ++)//求模式串各字符处的next值,即求串p[1~i]的前后缀最大交集的长度
    {                                   //由于字符串由下标1开始存储,next[i]+1也是模式串下次比较的起始下标
        while (j && p[i] != p[j + 1]) j = ne[j];//记录的最大交集的长度减小,直到为0,表示p[1~i]前后缀无交集
        if (p[i] == p[j + 1]) j ++;//该位匹配成功
        ne[i] = j;//j即该位的ne值
    }
    for (int i = 1, j = 0; i <= m; i ++)//遍历一遍主串
    {
        while (j && S[i] != p[j + 1]) j = ne[j];//不匹配且并非无路可退,则j后滑。j==0意味着当前i所指的字符与模式串的第一个字符都不一样,只能等该轮循环结束i++,之后再比较
        if (S[i] == p[j + 1]) j ++;//该位匹配成功
        if (j == n)//主串与模式串匹配成功
        {
            cout << i - n << ' ';//匹配时,输出 模式串首元素在主串中的下标
            j = ne[j];//j后滑,准备继续寻找下一个匹配处
        }
    }    
    return 0;
}

字符串从数组下标为开始存


const int N = 1000010;
char s[N], p[N];
int ne[N];
int main()
{
	int n, m;
    cin >> m >> p >> n >> s;
    ne[0] = -1;//ne[0]初始化为-1
    for (int i = 1, j = -1; i < m; i ++ )//从模式串的第2位2开始求next值
    {
        while (j != -1 && p[j + 1] != p[i]) j = ne[j];
        if (p[j + 1] == p[i]) j ++ ;
        ne[i] = j;
    }
    for (int i = 0, j = -1; i < n; i ++ )//遍历一遍主串
    {
        while (j != -1 && s[i] != p[j + 1]) j = ne[j];
        if (s[i] == p[j + 1]) j ++ ;
        if (j == m - 1)//扫描到模式串结尾,说明匹配完成
        {
            cout << i - j << ' ';
            j = ne[j];
        }
    }
    return 0;
}

总结

本篇文章就到这里了,希望能够给你带来帮助,也希望您能够多多关注编程网的更多内容!

--结束END--

本文标题: C语言字符串的模式匹配之BF与KMP

本文链接: https://lsjlt.com/news/135333.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

猜你喜欢
  • C语言字符串的模式匹配之BF与KMP
    目录BF算法(Brute-Force算法)KMP算法(快速的)KMP—yxc模板总结确定一个子串(模式串)在主串中第一次出现的位置。 BF算法(Brute-Force算法) BF算法...
    99+
    2024-04-02
  • c++KMP字符串匹配算法
    目录KMP算法简介前缀表如何构造前缀表next数组如何用next数组进行模板匹配总结KMP算法简介        ...
    99+
    2024-04-02
  • 正则表达式之字符串模式匹配实例详解
    目录前言什么是正则表达式字符范围匹配元字符多次重复匹配定位匹配贪婪模式与非贪婪模式表达式分组结语前言 今天我们来学习正则表达式,正则表达式的应用十分广泛,几乎每个涉及到交互的项目都会...
    99+
    2024-04-02
  • MySQL中有哪些字符串匹配模式
    这期内容当中小编将会给大家带来有关MySQL中有哪些字符串匹配模式,文章内容丰富且以专业的角度为大家分析和叙述,阅读完这篇文章希望大家可以有所收获。  MySQL字符串匹配模式有哪些  SQL的模式匹配允许...
    99+
    2024-04-02
  • Python实现字符串模糊匹配方式
    目录Python字符串模糊匹配包含四个参数python-re模块,模糊匹配Python字符串模糊匹配 Python的difflib库中get_close_matches方法 包含四个...
    99+
    2024-04-02
  • MySQL中的字符串模式匹配实例讲解
    这篇文章主要介绍“MySQL中的字符串模式匹配实例讲解”,在日常操作中,相信很多人在MySQL中的字符串模式匹配实例讲解问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法,希望对大家解答”MySQ...
    99+
    2024-04-02
  • 从 Go 中的字符串中提取匹配模式
    编程网今天将给大家带来《从 Go 中的字符串中提取匹配模式》,感兴趣的朋友请继续看下去吧!以下内容将会涉及到等等知识点,如果你是正在学习Golang或者已经是大佬级别了,都非常欢迎也希望大家都能给我...
    99+
    2024-04-04
  • c语言中字符串与字符串数组详解
    目录字符串字符串输出输入字符串字符串常用方法字符串数组总结字符串 用双引号引起来的就是字符串,字符串由字符组成 字符串使用%s格式化输出 字符串以\0结尾,...
    99+
    2024-04-02
  • C语言中如何实现模式匹配
    这篇文章主要介绍了C语言中如何实现模式匹配的相关知识,内容详细易懂,操作简单快捷,具有一定借鉴价值,相信大家阅读完这篇C语言中如何实现模式匹配文章都会有所收获,下面我们一起来看看吧。C语言数据结构中串的模式匹配串的模式匹配问题:朴素算法与K...
    99+
    2023-06-16
  • python 字符串模糊匹配Fuzzywuzzy的实现
    目录(1)安装(2)接口说明(3)使用Python提供fuzzywuzzy模块,不仅可用于计算两个字符串之间的相似度,而且还提供排序接口能从大量候选集中找到最相似的句子。 (1)安装...
    99+
    2024-04-02
  • 不同语言中字符串与Go语言字符串的差异
    go语言字符串与其他语言字符串的主要差异:不可变:创建后不能修改。unicode编码:支持不同语言的文本。utf-8编码:可表示所有unicode字符。无null终止符:节省字节空间。 ...
    99+
    2024-04-11
    go 字符串 python go语言 c++
  • C语言的变量与常量 字符字符串与转义字符详解
    目录一.变量1.1定义变量的方法1.2变量的分类1.3变量的使用二.常量2.1字面常量 2.2 const修饰的常变量 2.3#define定义的标识符常量2.4...
    99+
    2024-04-02
  • C语言字符函数与字符串函数详解
    目录本章重点前言1.strlen函数注意点1注意点22.strcpy注意点1:注意点2:注意点3:注意点4:总结本章重点 重点介绍处理字符和字符串的库函数的使用和注意事项 1.求字符...
    99+
    2024-04-02
  • C语言数据结构与算法之字符串详解
    目录串的定义串的比较 串的抽象数据类型串的初始化相关定义初始化定长类初始化串的堆式顺序存储结构(Heap)初始化堆字符串 赋值操作比较两个堆字符串的大小 串的定义...
    99+
    2024-04-02
  • Python正则表达式匹配字符串中的数字
    这篇文章主要介绍了Python正则表达式匹配字符串中的数字,本文通过实例代码给大家介绍的非常详细,具有一定的参考借鉴价值,需要的朋友可以参考下1.使用“\d+”匹配全数字...
    99+
    2023-06-01
  • awk模糊匹配字符串的方法是什么
    awk中的模糊匹配字符串可以通过使用正则表达式来实现。可以使用`~`运算符来判断一个字符串是否匹配某个模式。例如,假设我们有一个包含...
    99+
    2023-08-16
    awk
  • C语言字符串函数介绍与模拟实现详解
    目录2. strcpy(复制字符串)2.1 strncpy函数2.2 模拟实现strcpy3. strcat (追加字符)3.1 strncat 函数3.2 模拟实现strcat4....
    99+
    2024-04-02
  • PHP字符串匹配技巧:避免模糊包含表达式
    PHP字符串匹配技巧:避免模糊包含表达式 在PHP开发中,字符串匹配是一个常见的任务,通常用于查找特定的文本内容或验证输入的格式。然而,有时候我们需要避免使用模糊的包含表达式来确保匹配...
    99+
    2024-02-29
    php 字符串 匹配
  • C语言每日练习之字符串反转
    目录分析代码实现网上参考总结分析 在第18天:利用递归函数调用方式,将所输入的字符以相反顺序打印出来中,已经用过递归实现字符顺序输入,逆序输出,今天的题目是字符串反转,将以字符数组的...
    99+
    2024-04-02
  • C语言进阶教程之字符函数&字符串函数
    目录1、strlen1.1、三种模拟实现2、长度不受限制的字符串函数2.1、strcpy2.1.1、模拟实现2.2、strcat2.2.1、模拟实现2.3、strcmp2.3.1、模...
    99+
    2024-04-02
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作