我可以在书中或维基百科上找到关于数据挖掘的技术解释,但我想知道它究竟涉及哪种开发?是否更多地使用工具或更多关于编写工具?在涉及到R& D时,它与其他领域真的有什么不同吗?
答案 0 :(得分:22)
数据挖掘是在大量数据中发现有趣模式的过程。 不查询数据,这正是用户Treb描述的内容(抱歉Treb)。
要从开发人员的角度理解DM,您应该阅读Toby Segaran编写的集体智慧书。
答案 1 :(得分:3)
根据我的经验(我以前是数据挖掘者:-)),它是使用工具和编写工具的混合体。很多时候,分析特定数据集所需的工具不存在,因此您必须先自己编写。它可能非常有趣,但您通常需要采用与我现在所做的编程(嵌入式无线)完全不同的方法。例如。
答案 2 :(得分:2)
你真的应该改变这个问题的接受答案,这样就不会误导那些碰到它的人。
说查询数据库是数据挖掘,因为“[h]你会先发现数据中的任何模式而不先查询吗?”就像打开你的车门开车一样,因为“如果不首先打开车门,你怎么能够在某个地方开车呢?”
如果需要,您可以从文本文件中读取数据。我的第一个数据挖掘任务使用了UCI repository中的数据集,几乎都是文本文件。
如果您想通过查找群集和分类来了解数据挖掘。了解决策树和基于规则的分类。然后看看k-nearest-neighbor和k-means。之后如果您真的想看看数据挖掘是关于Chameleon,DBScan和支持向量机的全部内容。不一定要学习最后三个的细节(它们非常复杂且数学很重)但是理解所发生的事情的抽象概念会告诉你需要知道的所有内容,以便使用可用的许多工具和库。每个策略。
这些只是刚刚出现在我头脑中的算法。有许多其他我不记得或甚至不知道。
答案 3 :(得分:1)
数据挖掘是为了搜索隐藏模式的大量数据。 Web 2.0示例:新闻集团将其网站myspace.com用作大型数据矿,以确定要宣传的电影和产品。他们编写软件来识别用户发布到网站的数据趋势。新闻集团这样做是为了收集对广告活动和市场预测有用的信息。它与R& D的其他领域不同,从数据提供者的角度来看,它是被动的。数据挖掘工具不是走出街道,亲自询问他们今年夏天可能看到的电影以及其他类似问题,而是通过分析用户自愿提供的数据来解决这些问题。
维基百科确实有一篇很好的文章: - http://en.wikipedia.org/wiki/Data_mining
答案 4 :(得分:0)
答案 5 :(得分:0)
我认为更多的是使用现成的工具而不是开发自己的工具。这种工具的学术范例可能是WEKA。当然,您仍然需要知道使用什么算法,如何预处理数据(这部分非常重要)等。
在R& D中我没有太多的想法,但它应该像几乎所有东西:数学,统计学,更多的数学......
答案 6 :(得分:-3)
在开发级别,数据挖掘只是另一个数据库应用程序,但具有大量数据。
挖掘本身是通过在数据库上运行特定查询来完成的。它是在创建重要工作的查询中完成的。它们当然取决于数据模型,以及假设,客户期望找到什么样的趋势。 因此,查询的微调通常不能在开发中完成,但只有在系统处于活动状态且您拥有实时数据时才能完成。然后,用户可以测试他的假设并调整查询以向他显示他正在寻找的趋势。
因此,从开发的角度来看,数据管理是关于
在客户端管理大量数据(一个查询可能返回100.000行数据)
为用户(通常对SQL或关系数据库一无所知)提供修改查询和查看结果的有效方法。