统计,机器学习和数据挖掘

时间:2011-09-21 15:21:15

标签: statistics machine-learning data-mining

我目前正在学习数据挖掘,我有以下问题。

  1. 机器学习和数据挖掘之间的关系是什么?
  2. 我发现许多数据挖掘技术与统计数据有关,而我“听到”数据挖掘与机器学习有很多关系。所以我的问题是:机器学习与统计学密切相关吗?
  3. 如果它们没有密切关系,那么是否存在将数据挖掘专注于统计技术和以机器学习技能为重点的数据挖掘的划分?因为我找到了一些研究生院的统计部门开设数据挖掘课程。

3 个答案:

答案 0 :(得分:3)

不同的人称之为机器学习,数据挖掘和统计之间往往存在很多重叠。这些术语的定义取决于你问的对象。

这是nice overview,有很多很棒的链接。

答案 1 :(得分:3)

数据挖掘是从数据中提取有用信息的过程,例如模式,趋势,客户/用户行为,喜欢/不喜欢等。这涉及使用与人工智能和统计相关的算法。

Wikipedia对数据挖掘的定义是:

  

数据挖掘(数据库中知识发现的分析步骤)   过程,[1]或KDD),一个相对年轻和跨学科的领域   计算机科学,[2] [3]是发现新模式的过程   来自涉及统计和人工方法的大型数据集   智能还有数据库管理。与例如相反   机器学习,重点在于以前的发现   未知模式,而不是将已知模式概括为新模式   数据

机器学习涉及让计算机“学习”行为,趋势等,并采取行动。例如,在信用卡欺诈中,计算机“学习”了客户的行为,如果发生了奇怪的事情(涉及非常高额的交易等),它会标记该交易是否存在潜在的欺诈行为。

维基百科对机器学习的定义是:

  

机器学习是人工智能的一个分支,是一门科学研究   有关算法设计和开发的学科   允许计算机根据经验数据发展行为,例如   来自传感器数据或数据库。机器学习是关心的   开发允许机器通过学习的算法   基于观察表示不完整的数据的归纳推理   有关统计现象的信息。分类也是   简称模式识别,是机器中的一项重要任务   学习,机器“学习”自动识别复杂   模式,根据他们的不同来区分范例   模式,并做出明智的决定。

机器学习使用数据挖掘来学习模式,行为,趋势等,因为数据挖掘是从一组数据中提取此信息的方式。数据挖掘和机器学习都使用统计数据做出决策。所以是统计数据,在数据挖掘和机器学习中非常重要。

答案 2 :(得分:0)

@SpeedBirdNine已经给出了一个全面的答案。作为旁注:

  • 数据挖掘和机器学习主要基于统计学家古老但巧妙的想法。 (推论统计,决策理论等)
  • 经典统计+今天功能强大的计算机= DM& ML
  • 由于我们生活在大数据时代,因为缺乏足够数据,屏障统计人员过去不再是一个问题。因此,在许多情况下(当然不是全部),可以说数据挖掘/机器学习是新的统计! (他们曾经在他们的方程中得到的无穷大符号∞如果 n (样本大小)变为无穷大,那么一切行为都是可预测的(!),不再是一个妥协的现实!)。< / LI>

关于你的上一个问题,在我看来,在任何有意义的研究中,你要么需要对大数据应用一些统计方法,这就是当DM / ML派上用场时,或者你需要应用DM / ML方法已经基于经典统计设计。这些是每个DM / ML研究所涉及的两个部分,并且不排除统计数据,更不用说当目标是提出一个高级DM / ML算法来分析/聚类/分类大数据时。