我正在寻找能从文件中提取所有常见模式的算法,朴素算法需要O(n ^ 2)。要找出所有常见模式,我需要生成所有子字符串并在另一个给定文件中检查它。我正在寻找一些数据结构或算法,因此不需要生成所有子字符串。对于相同的任何有效和优雅的算法。
为简单起见,我们将文件视为字符串。让我们说我们必须串起str1 =“xxabcyy”和str2 =“sydabcdy”所以预期的输出是{“abc”,“y”}。朴素方法是将str1的每个子串与str2进行比较。例如,我有所有可能的str1子串,即{“x”,“xx”,“xxa”,“xxab”,“xxabc”,“xxabcy”,“xxabcyy “,”“xa”,“xab”,..}然后检查每个子字符串是否在str2中。
答案 0 :(得分:1)
检查Apriori和FPGrowth算法
用于市场购物篮分析和一般常见模式分析