如何计算不平等组之间分类变量的效应大小

时间:2018-07-17 12:31:02

标签: r

我有一个大约80,000的大数据集。我正在执行一系列多元回归并保留默认参数以省略NA(我的截止日期很紧且计算能力很差,所以没有时间进行多次插补)。

这表示例如对于一个结果,我有〜50000个观察结果。我要检查的是,在每个感兴趣的变量方面,这50000与其他30000之间是否有很大差异。

由于N较大,我认为使用效应大小检验会比显着性更好。 在R中,我使用Cohen的D函数对每个连续变量分别进行了Cohen的D测试,例如。

cohensd(completecases$age, incompletecases$age)

但是如何处理分类变量?

phi系数不适合,因为我的某些因素有两个以上的水平(例如,种族中有白人,黑人,亚裔,混合种族)。我还查看了Cramer的V,但这需要我的样本(完整和不完整)大小相同。 在不相等的组中,我可以对超过2个级别的分类变量执行哪种效应大小检验?

我能想到的就是创建一个新变量,该变量指示样本成员资格并执行例如种族〜成员身份

0 个答案:

没有答案