我将参与一个涉及数据挖掘的项目。在我加入之前,我想探索一下允许基于Web的报告的不同数据挖掘工具(最好是开源)。在我的场景中,数据将提供给我,所以我不应该抓它。
简而言之,我正在寻找一种工具 - 数据分析,基于Web的报告,提供某种仪表板和挖掘功能。
我曾参与过Microsoft Analysis Services和BOXI,最近我一直在关注Pentaho,这似乎是个不错的选择。
请分享您对任何此类工具的经验。
欢呼声
答案 0 :(得分:12)
我相信WEKA是最好的开源DM软件。
答案 1 :(得分:8)
答案 2 :(得分:5)
R有很多与数据挖掘相关的优秀软件包。特别要看:
它也与Weka(see the RWeka package)联系在一起。它可以与.Net(通过COM)或Python(通过RPy或RPy2)集成。
我同意Pentaho的报告平台,虽然这是一个非常大的项目,取决于你使用它的目的。
答案 3 :(得分:5)
RapidMiner 是我首选的数据挖掘工具。
答案 4 :(得分:5)
您还应该查看Apache Mahout。对于一些大规模的机器学习任务,例如用户群集,它可能非常有用。
答案 5 :(得分:3)
KEEL(http://keel.es)是用Java编写的,适用于使用进化计算进行数据挖掘。
答案 6 :(得分:3)
我会尝试使用新的Google工具。
- 首先你需要获得google-storage的api id,这是你要存储和操作你要分析的数据的地方。
- 然后你需要获得google-prediction-api(http://code.google.com/apis/predict/docs/getting-started.html)的api id,这对我所看到的是一个梦幻般的外包数据挖掘处理器。 Prediction API允许您从数据中获取更多信息,并使其模式更易于访问。除了使用传统的数字和名义数据,您还可以使用文本数据,这可以用于通过语言对电子邮件进行分类。
- 最后,您可以使用bigQuery来执行Ad-hoc分析,标准化报告,数据探索应用程序原型设计(http://code.google.com/apis/bigquery/)
答案 7 :(得分:2)
答案 8 :(得分:2)
您可以查看我的软件 SPMF data mining framework 。
它是一个开源Java软件,提供70多种算法:
答案 9 :(得分:2)
WEKA(已经提到), 橙色(http://orange.biolab.si/), Tanagra(http://data-mining-tutorials.blogspot.com)你可以在那里找到很好的教程。
是非常好的数据挖掘工具。
答案 10 :(得分:2)
我相信RapidMiner是一个很好的工具,应该添加到这个列表中。
答案 11 :(得分:1)
我相信KNIME也值得加入此列表。
答案 12 :(得分:1)
答案 13 :(得分:1)
此处列出了一些开源数据挖掘工具的列表: http://dataminingtools.net/browse.php
答案 14 :(得分:1)
你可能想看看ELKI,http://elki.dbs.ifi.lmu.de/这是一个可比较的项目,专注于聚类算法和异常值检测,这是数据挖掘的另外两个关键任务。
答案 15 :(得分:1)
您可以查看Data Mining SDK及其blog。
答案 16 :(得分:1)
Pentaho是一个非常专业的解决方案。绝对是一个非常好的选择。
答案 17 :(得分:0)
你可以看看数据挖掘工具weka
这是WEKA上一系列教程和视频的链接 教程:http://www.dataminingtools.net/browsetutorials.php?tag=weka
答案 18 :(得分:0)
除了工具之外,我强烈建议学习Python和R.这些语言在分析过程中有很多帮助。此外,大型数据集可以“自定义分析”。您也可以使用Javascript创建自己的自定义仪表板(请查看numerous charting and visualization libraries)
答案 19 :(得分:-1)
我自己是一个蟒蛇,我不得不说:
是的!所有这些都可以在Python中完成。
我上次玩过Beautiful Soup [0]。这是一个非常简单易用的模块,可以让你从html和xml中获取/挖掘数据(非常适合'屏幕抓取')。
如果你不懂python,那么......这很容易学习。