可以使用k-means或k-nn从两个数据集推断出什么

时间:2018-05-15 19:20:38

标签: data-mining k-means knn

我想知道你可以使用两个具有相似属性的大型数据集进行数据挖掘。假设您有两个数据集,其中包含有关某个国家/地区学校的详细信息,并且每个数据集属于特定年份的学校阶段。您可以使用数据挖掘对这些数据集做些什么?

我知道如何在熊猫中使用和应用这些算法但是我在获得k-means背后的动机方面遇到了问题。

我知道您使用k-means将未标记的数据根据​​数据集中的因子数量放入群集中,并根据每个数据元素的属性值将它们放置在创建的其中一个群集中。但那么你对这些集群做了什么?你如何使用它们来分析数据?我读到它甚至可以用于清理数据或将两个数据集相互关联,但我只是很难想象你将如何做这些事情。

任何帮助都非常感谢。感谢..

1 个答案:

答案 0 :(得分:1)

您可以使用这些数据集做很多事情,包括:

  • 根据某些因素,查看哪个学历较低的学生在升入更高学历时更可能属于哪个组(成功,失败等)
  • 查看哪些因素在不同阶段影响学生的成功(假设数据集包含此信息)
  • 您可以基于不同的因素进行许多不同的比较
  • ..还有更多。问题在于,在不查看数据集中包含哪些信息的情况下,真的不可能说出可以从数据集中推断出什么。我的建议是,您应该仔细查看两个数据集中的数据集,看看它们是否有一些通用的列,然后选择您最感兴趣的列。