广义序列模式发现的库/框架?

时间:2011-05-01 16:34:32

标签: java algorithm machine-learning data-mining

我有以下格式的CSV文件:

session_id,time,item

可能的物品数量巨大。

哪个框架/库最适合该问题(广义顺序模式发现)?

3 个答案:

答案 0 :(得分:4)

最后,我找到了一个合理的,易于使用的基于Java的框架,该框架处理GSP和顺序模式挖掘算法:

http://www.philippe-fournier-viger.com/spmf/index.php?link=algorithms.php

答案 1 :(得分:0)

我认为您无法将这些项目放入内存中,因此如果我理解正确,您正在寻找一种可以“处理”大量训练数据的解决方案。一个很好的解决方案是Apache Mahout

答案 2 :(得分:0)

Weka已完成此算法,但它的可扩展性不高。将您的数据转换为实例,您可以将weka应用到discover sequence。我发现将单词序列检测为文本特征非常有用。也。我修补它使用lucene,它现在是两倍的速度和可扩展性,所以它是一个良好的开端。