search - 数据挖掘引擎和框架？

时间：2010-11-18 00:53:22

标签： search text full-text-search cluster-analysis data-mining

您知道哪些开源/免费数据挖掘引擎和框架用于文本数据？

感谢您的任何建议！

答案 0 :(得分：3)

不确定你在寻找什么。也许像Lucene？

答案 1 :(得分：3)

Apache Mahout是一个OpenSource Machile学习库，可以与MapReduce一起使用（Apache Hadoop）。

它提供了Java中的以下算法实现：

答案 2 :(得分：2)

RapidMiner是免费的开源软件，可在Windows，Mac，Linux上运行，是一个很好的基于图形工作流程的程序。它运行所有Weka代码，并与R集成。

答案 3 :(得分：2)

Weka和Rapidminer在群集方面并不是那么强大。他们大多做分类和类似的预测，但很少聚类。看看ELKI，就像WEKA大学项目一样，但有大量的聚类和异常检测方法。

答案 4 :(得分：1)

我不知道引擎或框架，但我使用了这个名为Weka的工具，它有很多算法实现。

答案 5 :(得分：1)

对于文本处理（而不是数字数据挖掘和聚类），NLTK工具包值得一看。这是为了教授Python中的自然语言处理技术。因此，它非常适合修补，如果您选择使用Python，您必定会发现许多组件类和实现都很有用。

答案 6 :(得分：1)

RapidMiner是我首选的数据挖掘解决方案： http://www.RapidMiner.com/

以下是对数据挖掘专家中最受欢迎的数据挖掘工具的调查： http://www.kdnuggets.com/2011/05/tools-used-analytics-data-mining.html

KDnuggets Poll 2011：RapidMiner是全球数据挖掘专家中使用最广泛的数据挖掘解决方案。

答案 7 :(得分：1)

我是用于频繁模式挖掘的Java开源软件的作者。它提供了挖掘序列模式，关联规则，频繁项集等的算法。

虽然它不是专门为文本挖掘设计的，但是可以应用一些算法来挖掘文本中的频繁模式。例如，如果要查找在几个句子中经常出现的一些单词序列，则可以应用顺序模式挖掘算法。但要做到这一点，您需要在应用我的软件之前进行一些预处理，以便您的文本文件格式正确。

答案 8 :(得分：0)

Apache Mahout提供了一系列流行的算法，这些算法也可以应用于文本数据，并且具有很强的可扩展性！ Apache UIMA不提供数据挖掘算法，但是在自然语言处理中广泛使用的框架。