信息检索(IR)与数据挖掘与机器学习(ML)

时间:2010-08-05 18:04:17

标签: machine-learning data-mining information-retrieval

人们经常抛弃IR,ML和数据挖掘这两个术语,但我注意到它们之间有很多重叠。

从具有这些领域经验的人那里,究竟是什么划清界限呢?

4 个答案:

答案 0 :(得分:23)

这只是一个人的观点(正式接受ML训练);其他人可能会看到完全不同

机器学习可能是这三个术语中最同类,并且应用最为一致 - 它仅限于模式提取 (或模式匹配)算法本身。

在你提到的术语中,“机器学习”是学术部门最常用来描述他们的课程,他们的学术部门和他们的研究课程,以及学术期刊和会议论文中最常用的术语。 ML显然是与您提到的术语相关的最少依赖于上下文的。

信息检索数据挖掘更接近于描述完整的商业流程 - 即,从用户查询到相关的检索/交付结果。 ML算法可能在该流程中的某个地方,而在更复杂的应用程序中,通常是,但这不是正式的要求。此外,术语数据挖掘似乎通常是指在大数据(即> 2BG)上应用某些流程,因此通常包括分布式处理(地图) -reduce)组件靠近工作流程的前端。

因此,信息检索(IR)和数据挖掘(DM)以 Infrastructure-Algorithm 的方式与机器学习(ML)相关。换句话说,机器学习是用于解决信息检索中的问题的工具的一个来源。但它只是工具的一个来源。但IR并不依赖于ML - 例如,特定的IR项目可能是存储和快速检索完全索引的数据,响应用户的搜索查询IR,其关键是优化数据流的性能,即,从查询到将搜索结果传递给用户的往返。预测或模式匹配在这里可能没用。同样,DM项目可能会将ML算法用于预测引擎,但DM项目更可能也关注整个处理流程 - 例如,用于高效输入大量数据量的并行计算技术(也许是TB) )它将原始结果传递给处理引擎,用于计算描述性统计(变量(列)的平均值,标准偏差,分布等。

最后考虑一下Netflix奖。本次竞赛仅针对机器学习 - 重点是预测算法,事实证明只有一个成功标准:算法返回的预测准确性。想象一下,如果将'Netflix奖'重新命名为数据挖掘竞赛。成功标准几乎肯定会扩展到更准确地在实际商业环境中访问算法的性能 - 例如总体执行速度(推荐给用户的速度有多快)可能会被认为是准确的。

术语“信息检索”和“数据挖掘”现在已成为主流使用,但有一段时间我只在工作描述或供应商文献中看到这些术语(通常在“解决方案”一词旁边)。在我的雇主,我们最近聘请了一名“数据挖掘”分析师。我不知道他到底做了什么,但他每天都戴着领带上班。

答案 1 :(得分:15)

我试着按如下方式画线:

信息检索是指尽快找到已经成为您数据的一部分的内容。

机器学习是将现有知识概括为数据的技术,尽可能准确。

数据挖掘主要是关于在您的数据中发现隐藏的内容,而您之前知道的内容,尽可能“新”。

它们交叉并且经常使用彼此的技术。 DM和IR都使用索引结构来加速进程。 DM使用了很多ML技术,例如数据集中对泛化有用的模式可能是一种新知识。

它们通常很难分开。帮自己一个忙,不要只是为了流行语。在我看来,区分它们的最佳方式是通过意图,如上所述:查找数据,推广到新数据,查找现有数据的新属性。

答案 2 :(得分:4)

您还可以将模式识别和(计算?)统计数据添加为与您提到的三个重叠的另外几个区域。

我会说他们之间没有明确的界限。它们的区别在于它们的历史和重点。统计强调数学严谨,数据挖掘强调缩放到大数据集,ML介于两者之间。

答案 3 :(得分:0)

数据挖掘是关于发现可以使用的隐藏模式或未知知识 用于人们的决策。

机器学习是关于学习模型来分类新对象。