从开发人员的角度来看,什么是数据挖掘?

时间:2009-07-14 08:00:27

标签: data-mining

我可以在书中或维基百科上找到关于数据挖掘的技术解释,但我想知道它究竟涉及哪种开发?是否更多地使用工具或更多关于编写工具?在涉及到R& D时,它与其他领域真的有什么不同吗?

7 个答案:

答案 0 :(得分:22)

数据挖掘是在大量数据中发现有趣模式的过程。 查询数据,这正是用户Treb描述的内容(抱歉Treb)。

要从开发人员的角度理解DM,您应该阅读Toby Segaran编写的集体智慧书。

答案 1 :(得分:3)

根据我的经验(我以前是数据挖掘者:-)),它是使用工具和编写工具的混合体。很多时候,分析特定数据集所需的工具不存在,因此您必须先自己编写。它可能非常有趣,但您通常需要采用与我现在所做的编程(嵌入式无线)完全不同的方法。例如。

答案 2 :(得分:2)

你真的应该改变这个问题的接受答案,这样就不会误导那些碰到它的人。

说查询数据库是数据挖掘,因为“[h]你会先发现数据中的任何模式而不先查询吗?”就像打开你的车门开车一样,因为“如果不首先打开车门,你怎么能够在某个地方开车呢?”

如果需要,您可以从文本文件中读取数据。我的第一个数据挖掘任务使用了UCI repository中的数据集,几乎都是文本文件。

如果您想通过查找群集和分类来了解数据挖掘。了解决策树和基于规则的分类。然后看看k-nearest-neighbor和k-means。之后如果您真的想看看数据挖掘是关于Chameleon,DBScan和支持向量机的全部内容。不一定要学习最后三个的细节(它们非常复杂且数学很重)但是理解所发生的事情的抽象概念会告诉你需要知道的所有内容,以便使用可用的许多工具和库。每个策略。

这些只是刚刚出现在我头脑中的算法。有许多其他我不记得或甚至不知道。

答案 3 :(得分:1)

数据挖掘是为了搜索隐藏模式的大量数据。 Web 2.0示例:新闻集团将其网站myspace.com用作大型数据矿,以确定要宣传的电影和产品。他们编写软件来识别用户发布到网站的数据趋势。新闻集团这样做是为了收集对广告活动和市场预测有用的信息。它与R& D的其他领域不同,从数据提供者的角度来看,它是被动的。数据挖掘工具不是走出街道,亲自询问他们今年夏天可能看到的电影以及其他类似问题,而是通过分析用户自愿提供的数据来解决这些问题。

维基百科确实有一篇很好的文章:   - http://en.wikipedia.org/wiki/Data_mining

答案 4 :(得分:0)

正如我所说的,数据挖掘是从给定数据中找到模式或趋势。开发人员的观点可能在像Anti Money Laundring这样的应用程序中...在给定模式的情况下,您将搜索该给定模式的数据。另一个用途是投影软件......通过研究从数据中识别当前趋势,您可以在未来针对启发式投影结果或结果。

答案 5 :(得分:0)

我认为更多的是使用现成的工具而不是开发自己的工具。这种工具的学术范例可能是WEKA。当然,您仍然需要知道使用什么算法,如何预处理数据(这部分非常重要)等。

在R& D中我没有太多的想法,但它应该像几乎所有东西:数学,统计学,更多的数学......

答案 6 :(得分:-3)

在开发级别,数据挖掘只是另一个数据库应用程序,但具有大量数据。

挖掘本身是通过在数据库上运行特定查询来完成的。它是在创建重要工作的查询中完成的。它们当然取决于数据模型,以及假设,客户期望找到什么样的趋势。 因此,查询的微调通常不能在开发中完成,但只有在系统处于活动状态且您拥有实时数据时才能完成。然后,用户可以测试他的假设并调整查询以向他显示他正在寻找的趋势。

因此,从开发的角度来看,数据管理是关于

  1. 在客户端管理大量数据(一个查询可能返回100.000行数据)

  2. 为用户(通常对SQL或关系数据库一无所知)提供修改查询和查看结果的有效方法。