Question

我想看看我的数据中的组间差异是否具有统计显着性。

如何使用像这样的长格式的数据运行卡方检验

Country        Year     Value
Country A       1         2
Country A       2         3
Country A       3         3
Country B       1         6
Country B       2         7
Country B       3         6
Country C       1         9
Country C       2         8
Country C       3         9

我不知道如何对同一个变量进行卡方检验，但针对不同的群体（国家）。

谢谢

Answer 1

对于大多数统计测试，您需要将数据从长格式重新格式化为适当的宽格式。我喜欢reshape2包来帮助解决这些问题。

例如：

> x <- read.table(text = "Country        Year     Value
+ Country.A       1         2
+ Country.A       2         3
+ Country.A       3         3
+ Country.B       1         6
+ Country.B       2         7
+ Country.B       3         6
+ Country.C       1         9
+ Country.C       2         8
+ Country.C       3         9", header = TRUE)
> 
> 
> library(reshape2)
> wide <- dcast(x, Country ~ Year, value.var = "Value")
> wide
    Country 1 2 3
1 Country.A 2 3 3
2 Country.B 6 7 6
3 Country.C 9 8 9

现在它更接近chisq.test()或您可能有兴趣运行的任何其他测试所需的格式。第一行包含Country列，该列很可能需要从分析中排除，因为它与计数无关：

> wide[, -1]
  1 2 3
1 2 3 3
2 6 7 6
3 9 8 9

我将由您决定哪种测试适合您的数据。

Answer 2

您尚未指定要测试的假设，因此尚无法应用“卡方检验”。（你指定一个特定情况，你不确定实施的事实表明他可能是家庭作业。）从你提供的数据中可以清楚地看出，这些行根本不是独立的。您只有三个国家/地区，然后在具有整数值的某些内容的连续时间间隔内重复测量。那些重要吗？如果这是为了简化更丰富的数据集以进行讨论，那么您需要修改您的问题，并在构建realistinc测试用例时付出一些努力，以便提供实质性的评论

比较集团均值与Chi-Squared

2 个答案: