我正在努力学习R,并且很难找到我正在寻找的东西。有很多图书馆。
我有一个数据样本数据集,包括150k名字和姓氏及其工资。
为了好玩,我想看看是否有任何名字或姓氏与显着更高或更低的薪水相关联。
,"FirstName","LastName","BasePay"
1,"NATHANIEL","FORD","167411.18"
2,"GARY","JIMENEZ","155966.02"
3,"ALBERT","PARDINI","212739.13"
我尝试过使用:library("arulesViz")
和rules <- apriori(data)
但它似乎试图找到与精确工资数字的相关性,而不是工资相对较高或较低。
对我这个问题的任何帮助都会非常感激!
问候,史蒂文
答案 0 :(得分:0)
我认为这是一个非常合理的问题。 我会使用包dplyr。然后,您可以使用'group_by'和'summarize'函数。在你的情况下,group_by(FirstName)然后选择任何类型的统计数据,即工资的平均值或中位数作为偏差的度量。