百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术文章 > 正文

动画演示Sunday字符串匹配算法——比KMP算法快七倍

wxin55 2024-11-17 16:48 9 浏览 0 评论

前言

上一篇我用动画的方式向大家详细说明了KMP算法(没看过的同学可以回去看看)。

这次我依旧采用动画的方式向大家介绍另一个你用一次就会爱上的字符串匹配算法:Sunday算法,希望能收获你的点赞关注收藏与转发哟!

KMP算法是一个里程碑似的算法,它的出现宣告了人类是找到线性时间复杂度的字符串匹配算法的。在这之后,出现了许多的字符串匹配算法,比如BM算法Sunday算法

这些算法在时间复杂度上都已经达到了线性时间。但是在实际应用的时候所耗费的时间却还是有所不同。

BM算法在实际应用中的效率已经达到了KMP算法的四五倍。

Sunday算法的效率甚至犹在BM算法之上。

并且若是两种算法都了解的同学会明白:

Sunday算法比起BM算法来,真的极其容易理解。

正文

行,咱对Sunday算法的吹捧先到这为止,下面开始正戏!

PS:以下将带匹配字符串称为文本串,将用来匹配的字符串称为模式串

为什么说Sunday算法极易理解呢?

因为它比暴力匹配算法只多了一个步骤而已!

话不多说,直接上我精心制作的GIF动态图:

可以看到,我们只移动了三次,就直接找到了最终的结果。

Sunday算法是从前往后匹配的算法(BM算法是从后向前的),在匹配失败时重点关注的是文本串中参加匹配的最末位字符的下一位字符。

  • 如果该字符没有在模式串中出现则直接跳过,即移动位数 = 模式串长度 + 1。
  • 否则,其移动位数 = 模式串长度 - 该字符最右出现的位置(以0开始) = 模式串中该字符最右出现的位置到尾部的距离 + 1。

Sunday算法最巧妙的地方,就在于它发现匹配失败之后可以直接考察文本串中参加匹配的最末尾字符的下一个字符。

在python代码中,我们利用字典来存储模式串中每个字符最后出现的索引,这样在前期只需O(M),M为模式串长度的时间即可做完前期准备,然后再进行查询都是O(1)的时间。

同时为了防止越界,我在下面贴出来的python代码中手动在字符串末尾加上了一个'\0'字符。

代码

class Sunday(object):
    def __init__(self, pattern:str):
        # 模式串和其长度
        self.pattern, self.length = pattern, len(pattern)
        # 根据模式串构建的偏移字典
        self.shift_dict = {}

        # 构建字典
        for index, value in enumerate(pattern):
            self.shift_dict[value] = self.length - index

    def match(self, text:str):
        i = 0 
        text_length = len(text)
        text += '\0'
        while i <= text_length - self.length:
            j = 0
            while self.pattern[j] == text[i + j]:
                j += 1
                if j >= self.length:
                    return i
            offset = self.shift_dict[text[i+self.length]] if text[i+self.length] in self.shift_dict else self.length + 1
            i += offset
        return -1

s = Sunday('nihao')
print(s.match('dasoijfoasjdoifjasdoifjoinihao'))

代码十分的简单,同时,我构造了一个类,是为了在同一个模式串下能够复用它的位置字典,简化代码。

Sunday算法与KMP算法大比拼

在写完代码之后,我对KMP算法和Sunday算法的匹配时间进行了一个粗略的检测,检测结果如下:

amazing!Sunday算法的平均匹配速度达到了KMP算法的七倍左右!

对KMP和Sunday各自构造了一个对象,然后每次生成一个随机的十万个字符长度的字符串让它们俩分别开始匹配。

生成-->匹配这个过程循环一百遍,最终计算平均时间。如果有大佬觉得不放心的,我在下方放出检测代码,大家可以自行修改测试,拿去即可用!

检测代码如下

class KMP():
    def __init__(self, ss: str) -> list:
        self.length = len(ss)
        self.next_lst = [0 for _ in range(self.length)]
        self.next_lst[0] = -1
        i = 0
        j = -1
        while i < self.length - 1:
            if j == -1 or ss[i] == ss[j]:
                i += 1
                j += 1
                if ss[i] == ss[j]:
                    self.next_lst[i] = self.next_lst[j]
                else:
                    self.next_lst[i] = j
            else:
                j = self.next_lst[j]
        self.pattern = ss
    
    def match(self, ss:str):
        ans_lst = []
        j = 0
        for i in range(len(ss)):
            if ss[i] != self.pattern[j]:
                j = self.next_lst[j] if self.next_lst[j] != -1 else 0
            if ss[i] == self.pattern[j]:
                j += 1
            if j == self.length:
                return i + 1 - self.length
        return -1

class Sunday(object):
    def __init__(self, pattern:str):
        # 模式串和其长度
        self.pattern, self.length = pattern, len(pattern)
        # 根据模式串构建的偏移字典
        self.shift_dict = {}

        # 构建字典
        for index, value in enumerate(pattern):
            self.shift_dict[value] = self.length - index

    def match(self, text:str):
        i = 0 
        text_length = len(text)
        text += '\0'
        while i <= text_length - self.length:
            j = 0
            while self.pattern[j] == text[i + j]:
                j += 1
                if j >= self.length:
                    return i
            offset = self.shift_dict[text[i+self.length]] if text[i+self.length] in self.shift_dict else self.length + 1
            i += offset
        return -1


import random
import time
sunday = Sunday('helloworld')
kmp = KMP('helloworld')
kmp_average_time = 0
sunday_average_time = 0
for i in range(100):
    ss = ''.join([chr(random.randint(97, 122)) for _ in range(100000)])

    st = time.process_time()
    sunday.match(ss)
    ed = time.process_time()
    sunday_average_time += ed - st

    st = time.process_time()
    kmp.match(ss)
    ed = time.process_time()
    kmp_average_time += ed - st

print('kmp平均时间: {}'.format(kmp_average_time / 100))
print('sunday平均时间: {}'.format(sunday_average_time / 100))

最后

最后,如果你觉得这篇文章对你有帮助的话呢,给我点个关注,收藏吧!

我的个人公众号是【阳仔不想当码农】,欢迎你的关注,你的认可是我最大的动力!

我会持续更新对你有帮助的文章!

我是落阳,谢谢你的到访!

相关推荐

ES6中 Promise的使用场景?(es6promise用法例子)

一、介绍Promise,译为承诺,是异步编程的一种解决方案,比传统的解决方案(回调函数)更加合理和更加强大在以往我们如果处理多层异步操作,我们往往会像下面那样编写我们的代码doSomething(f...

JavaScript 对 Promise 并发的处理方法

Promise对象代表一个未来的值,它有三种状态:pending待定,这是Promise的初始状态,它可能成功,也可能失败,前途未卜fulfilled已完成,这是一种成功的状态,此时可以获取...

Promise的九大方法(promise的实例方法)

1、promise.resolv静态方法Promise.resolve(value)可以认为是newPromise方法的语法糖,比如Promise.resolve(42)可以认为是以下代码的语...

360前端一面~面试题解析(360前端开发面试题)

1.组件库按需加载怎么做的,具体打包配了什么-按需加载实现:借助打包工具(如Webpack的require.context或ES模块动态导入),在使用组件时才引入对应的代码。例如在V...

前端面试-Promise 的 finally 怎么实现的?如何在工作中使用?

Promise的finally方法是一个非常有用的工具,它无论Promise是成功(fulfilled)还是失败(rejected)都会执行,且不改变Promise的最终结果。它的实现原...

最简单手写Promise,30行代码理解Promise核心原理和发布订阅模式

看了全网手写Promise的,大部分对于新手还是比较难理解的,其中几个比较难的点:状态还未改变时通过发布订阅模式去收集事件实例化的时候通过调用构造函数里传出来的方法去修改类里面的状态,这个叫Re...

前端分享-Promise可以中途取消啦(promise可以取消吗)

传统Promise就像一台需要手动组装的设备,每次使用都要重新接线。而Promise.withResolvers的出现,相当于给开发者发了一个智能遥控器,可以随时随地控制异步操作。它解决了三大...

手写 Promise(手写输入法 中文)

前言都2020年了,Promise大家肯定都在用了,但是估计很多人对其原理还是一知半解,今天就让我们一起实现一个符合PromiseA+规范的Promise。附PromiseA+规范地址...

什么是 Promise.allSettled()!新手老手都要会?

Promise.allSettled()方法返回一个在所有给定的promise都已经fulfilled或rejected后的promise,并带有一个对象数组,每个对象表示对应的pr...

前端面试-关于Promise解析与高频面试题示范

Promise是啥,直接上图:Promise就是处理异步函数的API,它可以包裹一个异步函数,在异步函数完成时抛出完成状态,让代码结束远古时无限回掉的窘境。配合async/await语法糖,可...

宇宙厂:为什么前端离不开 Promise.withResolvers() ?

大家好,很高兴又见面了,我是"高级前端进阶",由我带着大家一起关注前端前沿、深入前端底层技术,大家一起进步,也欢迎大家关注、点赞、收藏、转发。1.为什么需要Promise.with...

Promise 新增了一个超实用的 API!

在JavaScript的世界里,Promise一直是处理异步操作的神器。而现在,随着ES2025的发布,Promise又迎来了一个超实用的新成员——Promise.try()!这个新方法简...

一次搞懂 Promise 异步处理(promise 异步顺序执行)

PromisePromise就像这个词的表面意识一样,表示一种承诺、许诺,会在后面给出一个结果,成功或者失败。现在已经成为了主流的异步编程的操作方式,写进了标准里面。状态Promise有且仅有...

Promise 核心机制详解(promise机制的实现原理)

一、Promise的核心状态机Promise本质上是一个状态机,其行为由内部状态严格管控。每个Promise实例在创建时处于Pending(等待)状态,此时异步操作尚未完成。当异步操作成功...

javascript——Promise(js实现promise)

1.PromiseES6开始支持,Promise对象用于一个异步操作的最终完成(包括成功和失败)及结果值的表示。简单说就是处理异步请求的。之所以叫Promise,就是我承诺,如果成功则怎么处理,失败怎...

取消回复欢迎 发表评论: