应用错误收集

时间：2018-05-15 19:20:38

标签： data-mining k-means knn

我想知道你可以使用两个具有相似属性的大型数据集进行数据挖掘。假设您有两个数据集，其中包含有关某个国家/地区学校的详细信息，并且每个数据集属于特定年份的学校阶段。您可以使用数据挖掘对这些数据集做些什么？

我知道如何在熊猫中使用和应用这些算法但是我在获得k-means背后的动机方面遇到了问题。

我知道您使用k-means将未标记的数据根据数据集中的因子数量放入群集中，并根据每个数据元素的属性值将它们放置在创建的其中一个群集中。但那么你对这些集群做了什么？你如何使用它们来分析数据？我读到它甚至可以用于清理数据或将两个数据集相互关联，但我只是很难想象你将如何做这些事情。

任何帮助都非常感谢。感谢..

答案 0 :(得分：1)

您可以使用这些数据集做很多事情，包括：

根据某些因素，查看哪个学历较低的学生在升入更高学历时更可能属于哪个组（成功，失败等）

查看哪些因素在不同阶段影响学生的成功（假设数据集包含此信息）

您可以基于不同的因素进行许多不同的比较

..还有更多。问题在于，在不查看数据集中包含哪些信息的情况下，真的不可能说出可以从数据集中推断出什么。我的建议是，您应该仔细查看两个数据集中的数据集，看看它们是否有一些通用的列，然后选择您最感兴趣的列。