关于数据挖掘的基本查询

时间:2011-07-31 15:00:11

标签: machine-learning analytics data-mining

使用数据挖掘,我们能够使用诸如关联等技术在大量数据中找到有用的模式,并且必须存在一些开源工具(这是什么示例?)。

这是基于拉取还是基于推送?我的意思是,我们是否提供数据集以及特定查询作为数据挖掘引擎的输入,它为我们提供了答案(如在SQL中)或者我们只提供大型数据集作为引擎的输入,并且它自己的查找模式(我们从未知道存在和/或我们无法为此制定查询),因此我们并没有从中提取任何特定的查询,它将模式推向我们。

对维基百科文章的一些快速阅读并没有明确表达我的怀疑。

3 个答案:

答案 0 :(得分:2)

开源时请看Weka

关于推拉式的东西,嗯,这两者都有。但它并不那么简单。你一定在找东西。例如。如果您正在寻找集群,那么有无监督的算法可以为您提供最少指导的答案。

在实践中,如果您了解所分析的数据并且正在查看有意义的规则和模式,那么事情会更有意义。

与Weka一起玩将让您更好地了解各种可能性。

答案 1 :(得分:0)

PythonR是其他在数据挖掘领域非常受欢迎的开源工具。

答案 2 :(得分:0)

我最近使用的一个很棒的工具是scikit-learn