使用哪种数据挖掘工具?

时间:2016-07-25 09:58:04

标签: comparison weka data-mining rapidminer

有人可以向我解释一下最知名的数据挖掘开源工具的主要优缺点吗?

我读到的任何地方 RapidMiner Weka 橙色 KNIME 是最好的。 look at this blog post

有人可以在小型项目清单中进行快速技术比较。

我的需求如下:

  • 它应该支持分类算法(Naive Bayes,SVM,C4.5, KNN)。
  • 在Java中应该很容易实现。
  • 它应该有可以理解的文档。
  • 它应该包含参考生产项目或用例。
  • 如果可能的话,进行一些额外的基准比较。

谢谢!

4 个答案:

答案 0 :(得分:5)

我想首先说明你的列表中有每个人的专业和缺点但是我会根据我的个人经验从你的列表中推荐weka,在你自己的java应用程序中实现它非常简单weka jar文件,并有自己的数据挖掘工具。

Rapid miner似乎是一个提供端到端解决方案的商业解决方案,但快速采矿者解决方案的外部实现最显着的例子通常是python和r脚本而不是java。

Orange提供的工具似乎主要针对那些可能不太需要在自己的软件中进行自定义实现的人,但是用户使用它的时间要容易得多,用python和源代码编写,支持用户插件。

Knime是另一个商业平台,提供数据挖掘和分析的端到端解决方案,提供所需的所有工具,这个在互联网上有各种好的评论,但我还没有用它来建议你或任何关于专业人士的人。或者它的缺点。

请参阅此处查看knime vs weka

Best data mining tools

正如我所说weka是我个人最喜欢的软件开发者,但我确信其他人对于为什么选择其中一个而有不同的理由和意见。希望您找到适合您的解决方案。

根据您的要求,weka还支持以下内容:

Naivebayes

SVM

C4.5

KNN

答案 1 :(得分:1)

我曾尝试使用15K记录数据库来尝试Orange和Weka,并发现Weka中的内存管理存在问题,它需要超过16Gb的RAM,而Orange可以不用那么多内存就可以管理数据库。一旦Weka达到最大内存量,即使您在ini文件中设置了更多内存来告诉Java虚拟机使用更多内存,它也会崩溃。

答案 2 :(得分:0)

我最近evaluated many open source projects对决策树机器学习算法进行了比较和对比。该评估包括Weka和KNIME。我介绍了算法,UX,准确性和模型检查方面的差异。您可以根据自己最看重的功能选择其中一个。

答案 3 :(得分:0)

我在RapidMiner方面拥有积极的经验:

  • 大量的机器学习算法
  • 机器学习工具-特征选择,参数网格搜索,数据分区,交叉验证,指标
  • 大量数据处理算法-输入,转换,输出
  • 适用于许多领域-金融,网络爬取和抓取,nlp,图像(非常基础)
  • 可扩展-可以发送和接收数据的其他技术:R,python,groovy,shell
  • 便携式-可以作为Java进程运行
  • 对开发人员友好(在某种程度上可以使用一些改进)-日志记录,调试,断点,宏

就用户体验而言,我希望看到类似RapidMiner的东西,但是具有基于python技术的底层引擎:pandas,scikit-learn,spacy等。最好是允许从GUI来回移动的东西。代码。