我想知道在任意字符串中查找模式的最佳方法是什么,并计算它们以获得最常见的模式。
基本上,我有一个时间序列,我翻译成有限字母的字母(假设20个字母),创建一个巨大的单个字符串。查找和计算模式的最佳方法是什么?参数可用于限制要搜索为模式的字符数量,例如,最少4个,最多30个字母用于模式。
后缀树是一种选择吗?或者是否有任何数据挖掘技术可以做到这一点?
答案 0 :(得分:0)
https://en.m.wikipedia.org/wiki/Sequential_pattern_mining
顺序模式挖掘是数据挖掘的一个主题,涉及在数据示例之间找到统计相关的模式,其中值按顺序传递。
然后你可以使用类似fp-grpwth的算法。