我有以下格式的CSV文件:
session_id,time,item
可能的物品数量巨大。
哪个框架/库最适合该问题(广义顺序模式发现)?
答案 0 :(得分:4)
最后,我找到了一个合理的,易于使用的基于Java的框架,该框架处理GSP和顺序模式挖掘算法:
http://www.philippe-fournier-viger.com/spmf/index.php?link=algorithms.php
答案 1 :(得分:0)
我认为您无法将这些项目放入内存中,因此如果我理解正确,您正在寻找一种可以“处理”大量训练数据的解决方案。一个很好的解决方案是Apache Mahout。
答案 2 :(得分:0)
Weka已完成此算法,但它的可扩展性不高。将您的数据转换为实例,您可以将weka应用到discover sequence。我发现将单词序列检测为文本特征非常有用。也。我修补它使用lucene,它现在是两倍的速度和可扩展性,所以它是一个良好的开端。