数据挖掘引擎和框架?

时间:2010-11-18 00:53:22

标签: search text full-text-search cluster-analysis data-mining

您知道哪些开源/免费数据挖掘引擎和框架用于文本数据?

感谢您的任何建议!

9 个答案:

答案 0 :(得分:3)

不确定你在寻找什么。也许像Lucene

答案 1 :(得分:3)

Apache Mahout是一个OpenSource Machile学习库,可以与MapReduce一起使用(Apache Hadoop)。

它提供了Java中的以下算法实现:

  • 协作过滤
  • 基于用户和项目的推荐人
  • K-Means,模糊K均值聚类
  • Mean Shift群集
  • Dirichlet流程聚类
  • 潜在的Dirichlet分配
  • 奇异值分解
  • 并行频繁模式挖掘
  • 互补朴素贝叶斯分类器
  • 基于随机森林决策树的分类器

你可以阅读更多: http://mahout.apache.org/

http://girlincomputerscience.blogspot.com.br/2010/11/apache-mahout.html

http://www.ibm.com/developerworks/java/library/j-mahout/

答案 2 :(得分:2)

RapidMiner是免费的开源软件,可在Windows,Mac,Linux上运行,是一个很好的基于图形工作流程的程序。它运行所有Weka代码,并与R集成。

答案 3 :(得分:2)

Weka和Rapidminer在群集方面并不是那么强大。他们大多做分类和类似的预测,但很少聚类。看看ELKI,就像WEKA大学项目一样,但有大量的聚类和异常检测方法。

答案 4 :(得分:1)

我不知道引擎或框架,但我使用了这个名为Weka的工具,它有很多算法实现。

答案 5 :(得分:1)

对于文本处理(而不是数字数据挖掘和聚类),NLTK工具包值得一看。这是为了教授Python中的自然语言处理技术。因此,它非常适合修补,如果您选择使用Python,您必定会发现许多组件类和实现都很有用。

答案 6 :(得分:1)

RapidMiner是我首选的数据挖掘解决方案: http://www.RapidMiner.com/

以下是对数据挖掘专家中最受欢迎的数据挖掘工具的调查: http://www.kdnuggets.com/2011/05/tools-used-analytics-data-mining.html

KDnuggets Poll 2011:RapidMiner是全球数据挖掘专家中使用最广泛的数据挖掘解决方案。

答案 7 :(得分:1)

我是用于频繁模式挖掘的Java开源软件的作者。它提供了挖掘序列模式,关联规则,频繁项集等的算法。

虽然它不是专门为文本挖掘设计的,但是可以应用一些算法来挖掘文本中的频繁模式。例如,如果要查找在几个句子中经常出现的一些单词序列,则可以应用顺序模式挖掘算法。但要做到这一点,您需要在应用我的软件之前进行一些预处理,以便您的文本文件格式正确。

您可以在此处查看软件: http://www.philippe-fournier-viger.com/spmf/

答案 8 :(得分:0)

Apache Mahout提供了一系列流行的算法,这些算法也可以应用于文本数据,并且具有很强的可扩展性! Apache UIMA不提供数据挖掘算法,但是在自然语言处理中广泛使用的框架。