Question

我有以下格式的CSV文件：

session_id,time,item

可能的物品数量巨大。

哪个框架/库最适合该问题（广义顺序模式发现）？

Answer 1

最后，我找到了一个合理的，易于使用的基于Java的框架，该框架处理GSP和顺序模式挖掘算法：

Answer 2

我认为您无法将这些项目放入内存中，因此如果我理解正确，您正在寻找一种可以“处理”大量训练数据的解决方案。一个很好的解决方案是Apache Mahout。

Answer 3

Weka已完成此算法，但它的可扩展性不高。将您的数据转换为实例，您可以将weka应用到discover sequence。我发现将单词序列检测为文本特征非常有用。也。我修补它使用lucene，它现在是两倍的速度和可扩展性，所以它是一个良好的开端。