应用错误收集

从两个文件中有效地查找所有常见模式（子串）

时间：2016-05-16 08:34:15

标签： algorithm data-structures

我正在寻找能从文件中提取所有常见模式的算法，朴素算法需要O（n ^ 2）。要找出所有常见模式，我需要生成所有子字符串并在另一个给定文件中检查它。我正在寻找一些数据结构或算法，因此不需要生成所有子字符串。对于相同的任何有效和优雅的算法。

为简单起见，我们将文件视为字符串。让我们说我们必须串起str1 =“xxabcyy”和str2 =“sydabcdy”所以预期的输出是{“abc”，“y”}。朴素方法是将str1的每个子串与str2进行比较。例如，我有所有可能的str1子串，即{“x”，“xx”，“xxa”，“xxab”，“xxabc”，“xxabcy”，“xxabcyy “，”“xa”，“xab”，..}然后检查每个子字符串是否在str2中。

1 个答案:

答案 0 :(得分：1)

检查Apriori和FPGrowth算法

https://en.wikibooks.org/wiki/Data_Mining_Algorithms_In_R/Frequent_Pattern_Mining/The_FP-Growth_Algorithm

用于市场购物篮分析和一般常见模式分析