我想看看我的数据中的组间差异是否具有统计显着性。
如何使用像这样的长格式的数据运行卡方检验
Country Year Value
Country A 1 2
Country A 2 3
Country A 3 3
Country B 1 6
Country B 2 7
Country B 3 6
Country C 1 9
Country C 2 8
Country C 3 9
我不知道如何对同一个变量进行卡方检验,但针对不同的群体(国家)。
谢谢
答案 0 :(得分:1)
对于大多数统计测试,您需要将数据从长格式重新格式化为适当的宽格式。我喜欢reshape2
包来帮助解决这些问题。
例如:
> x <- read.table(text = "Country Year Value
+ Country.A 1 2
+ Country.A 2 3
+ Country.A 3 3
+ Country.B 1 6
+ Country.B 2 7
+ Country.B 3 6
+ Country.C 1 9
+ Country.C 2 8
+ Country.C 3 9", header = TRUE)
>
>
> library(reshape2)
> wide <- dcast(x, Country ~ Year, value.var = "Value")
> wide
Country 1 2 3
1 Country.A 2 3 3
2 Country.B 6 7 6
3 Country.C 9 8 9
现在它更接近chisq.test()
或您可能有兴趣运行的任何其他测试所需的格式。第一行包含Country列,该列很可能需要从分析中排除,因为它与计数无关:
> wide[, -1]
1 2 3
1 2 3 3
2 6 7 6
3 9 8 9
我将由您决定哪种测试适合您的数据。
答案 1 :(得分:0)
您尚未指定要测试的假设,因此尚无法应用“卡方检验”。 (你指定一个特定情况,你不确定实施的事实表明他可能是家庭作业。)从你提供的数据中可以清楚地看出,这些行根本不是独立的。您只有三个国家/地区,然后在具有整数值的某些内容的连续时间间隔内重复测量。那些重要吗?如果这是为了简化更丰富的数据集以进行讨论,那么您需要修改您的问题,并在构建realistinc测试用例时付出一些努力,以便提供实质性的评论