Question

我正在努力学习R，并且很难找到我正在寻找的东西。有很多图书馆。

我有一个数据样本数据集，包括150k名字和姓氏及其工资。

为了好玩，我想看看是否有任何名字或姓氏与显着更高或更低的薪水相关联。

,"FirstName","LastName","BasePay"
1,"NATHANIEL","FORD","167411.18"
2,"GARY","JIMENEZ","155966.02"
3,"ALBERT","PARDINI","212739.13"

我尝试过使用：library("arulesViz")和rules <- apriori(data)

但它似乎试图找到与精确工资数字的相关性，而不是工资相对较高或较低。

对我这个问题的任何帮助都会非常感激！

问候，史蒂文

Answer 1

我认为这是一个非常合理的问题。我会使用包dplyr。然后，您可以使用'group_by'和'summarize'函数。在你的情况下，group_by（FirstName）然后选择任何类型的统计数据，即工资的平均值或中位数作为偏差的度量。