从两个文件中有效地查找所有常见模式(子串)

时间:2016-05-16 08:34:15

标签: algorithm data-structures

我正在寻找能从文件中提取所有常见模式的算法,朴素算法需要O(n ^ 2)。要找出所有常见模式,我需要生成所有子字符串并在另一个给定文件中检查它。我正在寻找一些数据结构或算法,因此不需要生成所有子字符串。对于相同的任何有效和优雅的算法。

为简单起见,我们将文件视为字符串。让我们说我们必须串起str1 =“xxabcyy”和str2 =“sydabcdy”所以预期的输出是{“abc”,“y”}。朴素方法是将str1的每个子串与str2进行比较。例如,我有所有可能的str1子串,即{“x”,“xx”,“xxa”,“xxab”,“xxabc”,“xxabcy”,“xxabcyy “,”“xa”,“xab”,..}然后检查每个子字符串是否在str2中。

1 个答案:

答案 0 :(得分:1)

检查Apriori和FPGrowth算法

https://en.wikibooks.org/wiki/Data_Mining_Algorithms_In_R/Frequent_Pattern_Mining/The_FP-Growth_Algorithm

用于市场购物篮分析和一般常见模式分析