发现任意字符串中的每个模式并计算重复项

时间:2018-06-11 17:31:16

标签: pattern-matching data-mining suffix-tree

我想知道在任意字符串中查找模式的最佳方法是什么,并计算它们以获得最常见的模式。

基本上,我有一个时间序列,我翻译成有限字母的字母(假设20个字母),创建一个巨大的单个字符串。查找和计算模式的最佳方法是什么?参数可用于限制要搜索为模式的字符数量,例如,最少4个,最多30个字母用于模式。

后缀树是一种选择吗?或者是否有任何数据挖掘技术可以做到这一点?

1 个答案:

答案 0 :(得分:0)

https://en.m.wikipedia.org/wiki/Sequential_pattern_mining

  

顺序模式挖掘是数据挖掘的一个主题,涉及在数据示例之间找到统计相关的模式,其中值按顺序传递。

然后你可以使用类似fp-grpwth的算法。