有人可以解释数据挖掘中分类和聚类之间的区别吗?
如果可以,请举两个例子来理解主要想法。
答案 0 :(得分:230)
通常,在分类中,您有一组预定义的类,并想知道新对象属于哪个类。
群集尝试对一组对象进行分组,并查找对象之间是否存在某些关系。
在机器学习的上下文中,分类为supervised learning,聚类为unsupervised learning。
另请查看维基百科上的Classification和Clustering。
答案 1 :(得分:69)
答案 2 :(得分:55)
如果您向任何数据挖掘或机器学习人员提出此问题,他们将使用术语监督学习和无监督学习来解释聚类和分类之间的区别。因此,让我首先向您解释有关监督和无监督的关键词。
监督学习: 假设你有一个篮子,里面装满了新鲜水果,你的任务就是在同一个地方安排相同类型的水果。假设水果是苹果,香蕉,樱桃和葡萄。 所以你已经从你以前的作品中了解到每种水果的形状,因此很容易在同一个地方安排相同类型的水果。 在这里,您之前的工作被称为数据挖掘中的训练数据。 所以你已经从你训练过的数据中学到了东西,这是因为你有一个响应变量,它告诉你,如果某些水果具有如此强烈的特征,那就是葡萄,就像每个水果一样。
您将从训练过的数据中获取此类数据。 这种类型的学习称为监督学习。 这种类型解决问题属于分类。 所以你已经学会了这些东西,这样你就可以自信地工作了。
无人监管: 假设你有一个篮子,里面装满了新鲜水果,你的任务是在同一个地方安排相同类型的水果。
这次你对这些水果一无所知,你是第一次看到这些水果,所以你将如何安排相同类型的水果。
您首先要做的是取出水果,然后选择特定水果的任何物理特性。假设你采取了颜色。
然后你会根据颜色来安排它们,然后这些小组会是这样的。 RED COLOR GROUP: apple&樱桃果实。 GREEN COLOR GROUP:香蕉&葡萄。 所以现在你将把另一个物理角色作为大小,所以现在这些群体将是这样的东西。 RED COLOR AND BIG SIZE:苹果。 红色和小尺寸:樱桃果实。 绿色和大尺寸:香蕉。 绿色和小尺寸:葡萄。 工作做得很开心。
这里你没有学过任何东西,意味着没有火车数据,也没有响应变量。 这种类型的学习是无监督学习。 聚类是在无监督学习下进行的。
答案 3 :(得分:17)
+分类: 你得到一些新的数据,你必须为它们设置新的标签。
例如,公司希望对潜在客户进行分类。当新客户到来时,他们必须确定这是否是将要购买其产品的客户。
+群集: 你得到了一套记录谁购买了什么的历史交易。
通过使用群集技术,您可以了解客户的细分。
答案 4 :(得分:6)
我是数据挖掘的新成员,但正如我的教科书所说,CLASSICIATION应该是监督学习,CLUSTERING无监督学习。可以在here找到监督学习和无监督学习之间的区别。
答案 5 :(得分:6)
根据示例中的学习,将预定义类分配给新观察。
这是机器学习的关键任务之一。
虽然被普遍认为是“无监督分类”,但却完全不同。
与许多机器学习者将教给你的东西相比,它不是为对象分配“类”,而是没有预定义它们。对于进行过多分类的人来说,这是非常有限的观点; 的一个典型例子,如果你有锤子(分类器),一切看起来像钉子(分类问题)给你。但这也是为什么分类人员没有掌握聚类的原因。
相反,请将其视为结构发现。群集的任务是在数据中找到之前不知道的结构(例如群组)。群集已经成功如果你学到了新东西。它失败了,如果你只有你已经知道的结构。
聚类分析是数据挖掘的关键任务(以及机器学习中的丑小鸭,所以不要听机器学习者解散聚类)。
这已在文献中上下反复,但无监督学习是b llsh t。它不存在,但它是像“军事情报”那样的矛盾。
算法从示例中学习(然后是“监督学习”),或者不学习。如果所有聚类方法都是“学习”,则计算数据集的最小值,最大值和平均值也是“无监督学习”。然后任何计算“学习”其输出。因此,“无监督学习”这个词完全没有意义,它意味着一切都没有。
然而,一些“无监督学习”算法属于优化类别。例如,k-means 是最小二乘优化。这些方法都是统计数据,因此我认为我们不需要将它们标记为“无监督学习”,而应继续将它们称为“优化问题”。它更精确,更有意义。 有许多聚类算法不涉及优化,并且不适合机器学习范例。因此,在“无监督学习”的保护伞下停止挤压它们。
有一些与群集相关的“学习”,但它不是学习的程序。用户应该学习有关其数据集的新内容。
答案 6 :(得分:3)
通过群集,您可以使用所需属性对数据进行分组,例如提取的群集的数量,形状和其他属性。而在分类中,组的数量和形状是固定的。 大多数聚类算法都将聚类数作为参数。但是,有一些方法可以找出适当数量的聚类。
答案 7 :(得分:2)
首先,在此之前,我将像许多答案一样说,分类是有监督的学习,而聚类是无监督的。这意味着:
分类需要标记数据,以便可以对这些分类器进行训练,然后根据他所知道的知识对新的看不见的数据进行分类。诸如聚类之类的无监督学习不使用标记的数据,它的实际作用是发现数据(如组)中的内在结构。
这两种技术之间的另一个区别(与前一种技术有关)是,分类是离散回归问题的一种形式,其中输出是分类因变量。而集群的输出会产生一组称为组的子集。出于相同的原因,评估这两个模型的方法也有所不同:在分类中,您通常必须检查精度和召回率,例如过拟合和欠拟合等,这些都将告诉您该模型的性能如何。但是在集群中,您通常需要有远见的专家来解释您发现的内容,因为您不知道自己拥有什么类型的结构(组或集群的类型)。这就是为什么聚类属于探索性数据分析的原因。
最后,我想说应用程序是两者之间的主要区别。顾名思义,分类是用来区分属于某个类别或另一个类别的实例,例如男人或女人,猫或狗等。聚类通常用于诊断医学疾病,发现模式,等等
希望有帮助!
答案 8 :(得分:1)
群集旨在寻找数据中的群组。 “集群”是一个直观的概念 没有数学上严格的定义。一个集群的成员应该是 彼此相似,与其他集群的成员不同。聚类 算法在未标记的数据集Z上运行,并在其上生成分区。
对于类和类标签, class包含类似的对象,而来自不同类的对象 是不一样的。有些类具有明确的含义,在最简单的情况下 相互排斥。例如,在签名验证中,签名是 真诚的或伪造的。真正的阶级是两者之一,无论我们可能不是 能够从观察特定签名中正确猜出。
答案 9 :(得分:1)
分类 - 预测分类类标签 - 根据训练集和类标签属性中的值(类标签)对数据进行分类(构建模型) - 在分类新数据时使用模型
集群:数据对象的集合 - 在同一群集中彼此相似 - 与其他集群中的对象不同
答案 10 :(得分:1)
从书中的Mahout in Action,我认为它很好地解释了差异:
分类算法与诸如k均值算法的聚类算法有关,但仍然有很大不同。
分类算法是监督学习的一种形式,与无监督学习相反,后者在聚类算法中发生。
监督学习算法是给出包含目标变量的期望值的示例的算法。无监督算法没有给出理想的答案,而是必须找到一些合理的算法。
答案 11 :(得分:0)
如果您尝试在书架上存档大量纸张(根据日期或文件的其他一些规格),那么您就是分类。
如果您要从工作表中创建群集,则表示工作表之间存在类似的内容。
答案 12 :(得分:0)
数据挖掘中有两个定义"监督"和"无人监督"。 当有人告诉计算机,算法,代码......这个东西就像一个苹果,那东西就像一个橙色,这是监督学习和使用监督学习(如数据集中每个样本的标签)来分类数据,您将获得分类。但另一方面,如果你让计算机找出什么是什么并区分给定数据集的特征,实际上是无监督学习,为了对数据集进行分类,这将被称为聚类。在这种情况下,提供给算法的数据没有标签,算法应该找出不同的类。
答案 13 :(得分:0)
机器学习或人工智能主要通过其执行/实现的任务来感知。
在我看来,通过考虑聚类和分类,他们实现的任务概念可以真正帮助理解两者之间的差异。
聚类是对事物进行分组,而分类就是对事物进行标记。
让我们假设你在一个聚会大厅里,所有男人都穿着西装,女人穿着礼服。
现在,你问你的朋友几个问题:
Q1:嗨,你能帮我分组吗?
你朋友可以给出的答案是:
1:他可以根据性别,男性或女性对人进行分组
2:他可以根据自己的衣服对人进行分组,1穿着其他穿着的礼服
3:他可以根据头发的颜色对人进行分组
4:他可以根据年龄组等等对人进行分组。
他们的朋友可以通过多种方式完成此任务。
当然,您可以通过提供额外的输入来影响他的决策过程,如:
你能帮助我根据性别(或年龄组,或头发颜色或着装等)对这些人进行分组。
<强> Q2:强>
在第二季度之前,您需要做一些前期工作。
您必须教导或通知您的朋友,以便他能够做出明智的决定。所以,让我们说你对你的朋友说:
长发的女性是女性。
短发的人是男士。
Q2。现在,你指出一个长发的人问你的朋友 - 这是男人还是女人?
你可以期待的唯一答案是:女人。
当然,聚会中可能会有长发的男性和短发的女性。但是,根据您提供给朋友的经验,答案是正确的。您可以通过向朋友教授如何区分两者来进一步改进流程。
在上面的例子中,
Q1代表Clustering实现的任务。
在群集中,您向算法(您的朋友)提供数据(人员)并要求它对数据进行分组。
现在,由算法来决定分组的最佳方式是什么? (性别,肤色或年龄组)。
同样,你绝对可以通过提供额外的输入来影响算法做出的决定。
Q2表示分类达到的任务。
在那里,你给你的算法(你的朋友)一些数据(人),称为训练数据,并让他知道哪些数据对应于哪个标签(男性或女性)。然后将算法指向某些数据,称为测试数据,并要求它确定它是男性还是女性。你的教学越好,它的预测就越好。
第二季度或分类中的前期工作只是训练您的模型,以便它可以学习如何区分。在Clustering或Q1中,这个前期工作是分组的一部分。
希望这有助于某人。
由于
答案 14 :(得分:0)
分类的一个班轮:
将数据分类为预定义的类别
群集的一个内容:
将数据分组为一组类别
关键区别:
分类正在获取数据并将其置于预定义的类别中,并且在集群中要将数据分组的类别集中,事先是未知的。
<强>结论:强>
我写了一篇关于同一主题的长篇文章,你可以在这里找到:
答案 15 :(得分:0)
分类-数据集可以具有不同的组/类别。红色,绿色和黑色。分类将尝试找到将它们划分为不同类别的规则。
缓冲-如果数据集不包含任何类,并且您希望将它们放入某个类/分组中,则可以进行聚类。上面的紫色圆圈。
如果分类规则不好,则可能会导致测试分类错误或您的规则不够正确。
如果聚类不好,那么您将有很多异常值。数据点不能落入任何群集。
答案 16 :(得分:0)
分类和聚类之间的主要区别是: 分类是借助类标签对数据进行分类的过程。另一方面,聚类类似于分类,但是没有预定义的类标签。 分类是在监督学习的基础上进行的。与之相反,群集也称为无监督学习。 分类方法提供训练样本,而聚类情况下不提供训练数据。
希望这会有所帮助!
答案 17 :(得分:0)
分类:预测结果是否为离散输出=>将输入变量映射为离散类别
常见用例:
电子邮件分类:垃圾邮件或非垃圾邮件
对客户的制裁贷款:是的,如果他有能力为制裁的贷款金额支付EMI。不,如果他不能
肿瘤细胞识别:是关键的还是非关键的?
推文的情感分析:推文是正面的还是负面的或中性的
新闻分类:将新闻分类为预定义的类别之一-政治,体育,健康等
聚类:是一种将一组对象进行分组的任务,以使同一组(称为集群)中的对象(在某种意义上)彼此之间的相似性更高在其他组(集群)中
常见用例:
营销:发现用于营销目的的客户群
生物学:不同种类动植物的分类
图书馆:根据主题和信息将不同的书籍归类
保险:确认客户,他们的保单并识别欺诈行为
城市规划:建造房屋并根据其地理位置和其他因素研究其价值。
地震研究:识别危险区域
参考文献:
答案 18 :(得分:-1)
我认为分类是将数据集中的记录分类为预定义的类,甚至可以随时定义类。我认为它是任何有价值的数据挖掘的先决条件,我喜欢在无监督学习中考虑它,即在挖掘数据时不知道他/她正在寻找什么,分类是一个很好的起点
另一端的聚类属于有监督的学习,即知道要查找的参数,它们之间的相关性以及临界水平。我认为这需要对统计和数学有所了解