我想知道你可以使用两个具有相似属性的大型数据集进行数据挖掘。假设您有两个数据集,其中包含有关某个国家/地区学校的详细信息,并且每个数据集属于特定年份的学校阶段。您可以使用数据挖掘对这些数据集做些什么?
我知道如何在熊猫中使用和应用这些算法但是我在获得k-means背后的动机方面遇到了问题。
我知道您使用k-means将未标记的数据根据数据集中的因子数量放入群集中,并根据每个数据元素的属性值将它们放置在创建的其中一个群集中。但那么你对这些集群做了什么?你如何使用它们来分析数据?我读到它甚至可以用于清理数据或将两个数据集相互关联,但我只是很难想象你将如何做这些事情。
任何帮助都非常感谢。感谢..
答案 0 :(得分:1)
您可以使用这些数据集做很多事情,包括:
..还有更多。问题在于,在不查看数据集中包含哪些信息的情况下,真的不可能说出可以从数据集中推断出什么。我的建议是,您应该仔细查看两个数据集中的数据集,看看它们是否有一些通用的列,然后选择您最感兴趣的列。