使用数据挖掘,我们能够使用诸如关联等技术在大量数据中找到有用的模式,并且必须存在一些开源工具(这是什么示例?)。
这是基于拉取还是基于推送?我的意思是,我们是否提供数据集以及特定查询作为数据挖掘引擎的输入,它为我们提供了答案(如在SQL中)或者我们只提供大型数据集作为引擎的输入,并且它自己的查找模式(我们从未知道存在和/或我们无法为此制定查询),因此我们并没有从中提取任何特定的查询,它将模式推向我们。
对维基百科文章的一些快速阅读并没有明确表达我的怀疑。
答案 0 :(得分:2)
开源时请看Weka。
关于推拉式的东西,嗯,这两者都有。但它并不那么简单。你一定在找东西。例如。如果您正在寻找集群,那么有无监督的算法可以为您提供最少指导的答案。
在实践中,如果您了解所分析的数据并且正在查看有意义的规则和模式,那么事情会更有意义。
与Weka一起玩将让您更好地了解各种可能性。
答案 1 :(得分:0)
答案 2 :(得分:0)
我最近使用的一个很棒的工具是scikit-learn