00-环境
- 00-MySQL安装
- 01-Hadoop安装
- 02-Hadoop编译源码
- 03-Zookeeper安装
- 04-Hive
- 05-Flume安装
- 06-HBase安装
- 99-Ubuntu16.04 安装opencv（C++版本）
- 99-安装ffmpeg

01-数据结构
- 数据结构01-大纲
- 数据结构02-复杂度分析(上)
- 数据结构03-复杂度分析(下)
- 数据结构04-数组
- 数据结构05-链表
- 数据结构06-栈
- 数据结构07-队列
- 数据结构08-递归
- 数据结构09-排序之冒泡&插入&选择
- 数据结构10-排序之归并&快排
- 数据结构11-排序之线性排序(桶排序、计数排序、基数排序)
- 数据结构12-排序之优化
- 数据结构13-二分查找
- 数据结构14-跳表
- 数据结构15-散列表
- 数据结构16-哈希算法的应用
- 数据结构17-二叉树基础
- 数据结构18-红黑树
- 数据结构19-递归树
- 数据结构20-堆和堆排序
- 数据结构21-图的表示
- 数据结构22-深度和广度优先搜索
- 数据结构23-字符串匹配
- 数据结构24-Trie树
- 数据结构25-AC自动机
- 数据结构26-贪心算法
- 数据结构27-分治算法
- 数据结构28-回溯算法
- 数据结构29-动态规划理论
- 数据结构30-动态规划入门案例
- 数据结构31-动态规划实战
- 数据结构32-拓扑排序 - 副本 (2)
- 数据结构32-拓扑排序 - 副本
- 数据结构32-拓扑排序
- 数据结构32-拓扑排序 - 副本 (3)

02-Java
- Java00--时间计划
- Java00-IDEA配置
- Java01-概述
- Java02-关键字&标识符
- Java03-运算符
- Java04-流程控制
- Java05-数组
- Java06-面向对象01三大特性
- Java06-面向对象02抽象类接口
- Java07-异常
- Java08-多线程
- Java09-常用类
- Java10-枚举类与注解
- Java11-集合
- Java12-泛型
- Java13-IO流
- Java14-网络编程
- Java15-反射
- Java16-Java8 新特性

03-MySQL
- MySQL00-安装
- MySQL01-概述
- MySQL02-DQL
- MySQL03-DML
- MySQL04-DDL
- MySQL05-TCL
- MySQL06-视图&存储过程&流程控制

04-JDBC
- JDBC-01 概览&连接数据库方式
- JDBC-02 CRUD
- JDBC-03 数据库事务&DAO
- JDBC-04 数据库连接池&DBUtils

05-Hadoop
- Hadoop01-概述、运行模式&源码编译
- Hadoop02-HDFS概述、shell&客户端操作
- Hadoop03-HDFS读写流程&NN和2NN
- Hadoop04-HDFS-DataNode
- Hadoop05-HDFS2.X新特性和高可用(HA)
- Hadoop06-MapReduce概述&序列化
- Hadoop07-MapReduce框架原理
- Hadoop08-Hadoop数据压缩
- Hadoop09-Yarn资源调度
- Hadoop10-生产调优手册
- Hadoop11-源码解析

06-Zookeeper
- Zookeeper00-安装
- Zookeeper01-概述
- Zookeeper02-内部原理
- Zookeeper03-Shell操作
- Zookeeper04-实战

07-Hive
- Hive01-概述
- Hive02-安装
- Hive03-数据类型
- Hive04-DDL
- Hive05-DML
- Hive06-查询
- Hive07-函数
- Hive08-压缩和存储
- Hive09-企业级调优
- Hive10-实战

08-Flume
- flume00-安装
- flume01-概述
- flume02-案例
- flume03-原理
- flume04-面试题

09-Kafka
- Kafka00-安装
- Kafka01-概述&shell操作
- Kafka02-架构原理
- Kafka03-API
- Kafka04-监控
- Kafka05-Flume对接Kafka
- Kafka06-面试题

10-HBase
- HBase00-安装
- HBase01-概述
- HBase02-HBase-shell操作
- HBase03-HBase进阶
- HBase04-HBase-API
- HBase05-HBase-MR
- HBase06-与Hive集成
- HBase07-HBase优化
- HBase08-扩展

11-Spark
- Spark00-安装
- Spark01-概述
- Spark02-RDD
- Spark03-累加器&广播变量
- Spark04-SparkSql
- Spark05-SparkStreaming
- Spark06-Spark内核
- Spark07-Spark优化

数据结构25-AC自动机

NiuMT 2021-01-02 20:58:12

数据结构

[toc]

AC自动机

实现一个高性能的敏感词过滤系统

基于单模式串和 Trie 树实现的敏感词过滤

BF 算法、RK 算法、BM 算法、KMP 算法，还有 Trie 树。前面四种算法都是单模式串匹配算法，只有 Trie 树是多模式串匹配算法。

单模式串匹配算法，是在一个模式串和一个主串之间进行匹配，也就是说，在一个主串中查找一个模式串。多模式串匹配算法，就是在多个模式串和一个主串之间做匹配，也就是说，在一个主串中查找多个模式串。

对敏感词字典进行预处理，构建成 Trie 树结构。这个预处理的操作只需要做一次，如果敏感词字典动态更新了，比如删除、添加了一个敏感词，那只需要动态更新一下 Trie 树就可以了。

当用户输入一个文本内容后，把用户输入的内容作为主串，从第一个字符（假设是字符 C）开始，在 Trie 树中匹配。当匹配到 Trie 树的叶子节点，或者中途遇到不匹配字符的时候，我们将主串的开始匹配位置后移一位，也就是从字符 C 的下一个字符开始，重新在 Trie 树中匹配。

基于 Trie 树的这种处理方法，有点类似单模式串匹配的 BF 算法。我们知道，单模式串匹配算法中，KMP 算法对 BF 算法进行改进，引入了 next 数组，让匹配失败时，尽可能将模式串往后多滑动几位。借鉴单模式串的优化改进方法，能否对多模式串 Trie 树进行改进，进一步提高 Trie 树的效率呢？这就要用到 AC 自动机算法了。

经典的多模式串匹配算法：AC 自动机

AC 自动机算法，全称是 Aho-Corasick 算法。其实，Trie 树跟 AC 自动机之间的关系，就像单串匹配中朴素的串匹配算法，跟 KMP 算法之间的关系一样，只不过前者针对的是多模式串而已。所以，AC 自动机实际上就是在 Trie 树之上，加了类似 KMP 的 next 数组，只不过此处的 next 数组是构建在树上罢了。

所以，AC 自动机的构建，包含两个操作：

将多个模式串构建成 Trie 树；
在 Trie 树上构建失败指针（相当于 KMP 中的失效函数 next 数组）。

构建好 Trie 树之后，如何在它之上构建失败指针？

数据结构24-Trie树

数据结构26-贪心算法