您知道哪些开源/免费数据挖掘引擎和框架用于文本数据?
感谢您的任何建议!
答案 0 :(得分:3)
不确定你在寻找什么。也许像Lucene?
答案 1 :(得分:3)
Apache Mahout是一个OpenSource Machile学习库,可以与MapReduce一起使用(Apache Hadoop)。
它提供了Java中的以下算法实现:
你可以阅读更多: http://mahout.apache.org/
http://girlincomputerscience.blogspot.com.br/2010/11/apache-mahout.html
答案 2 :(得分:2)
RapidMiner是免费的开源软件,可在Windows,Mac,Linux上运行,是一个很好的基于图形工作流程的程序。它运行所有Weka代码,并与R集成。
答案 3 :(得分:2)
Weka和Rapidminer在群集方面并不是那么强大。他们大多做分类和类似的预测,但很少聚类。看看ELKI,就像WEKA大学项目一样,但有大量的聚类和异常检测方法。
答案 4 :(得分:1)
我不知道引擎或框架,但我使用了这个名为Weka的工具,它有很多算法实现。
答案 5 :(得分:1)
对于文本处理(而不是数字数据挖掘和聚类),NLTK工具包值得一看。这是为了教授Python中的自然语言处理技术。因此,它非常适合修补,如果您选择使用Python,您必定会发现许多组件类和实现都很有用。
答案 6 :(得分:1)
RapidMiner是我首选的数据挖掘解决方案: http://www.RapidMiner.com/
以下是对数据挖掘专家中最受欢迎的数据挖掘工具的调查: http://www.kdnuggets.com/2011/05/tools-used-analytics-data-mining.html
KDnuggets Poll 2011:RapidMiner是全球数据挖掘专家中使用最广泛的数据挖掘解决方案。
答案 7 :(得分:1)
我是用于频繁模式挖掘的Java开源软件的作者。它提供了挖掘序列模式,关联规则,频繁项集等的算法。
虽然它不是专门为文本挖掘设计的,但是可以应用一些算法来挖掘文本中的频繁模式。例如,如果要查找在几个句子中经常出现的一些单词序列,则可以应用顺序模式挖掘算法。但要做到这一点,您需要在应用我的软件之前进行一些预处理,以便您的文本文件格式正确。
您可以在此处查看软件: http://www.philippe-fournier-viger.com/spmf/
答案 8 :(得分:0)
Apache Mahout提供了一系列流行的算法,这些算法也可以应用于文本数据,并且具有很强的可扩展性! Apache UIMA不提供数据挖掘算法,但是在自然语言处理中广泛使用的框架。