R

时间:2019-02-28 07:48:43

标签: r ggplot2 associations regression correlation

我有兴趣评估入学考试结果与第一学期考试结果之间的关系-两个变量都是整数。我已经为这些计算了皮尔逊相关性。

但是,由于我的变量是整数,所以分散点并没有真正分散。

是否有更好的方法来计算和可视化相关性?或其他任何衡量他们关系的方式?

如果我的两个整数不能正常分布怎么办?

是否存在不同比例的问题? final用百分比表示,entrance_exam是0到15的测试分数。

test_data <- data.frame("entrance_exam" = sample(0:15,200,replace=T), "final" = sample(0:100,200,replace=T))
str(test_data)
cor.test(entrance_exam,percentage)

ggplot(test_data, aes(x=entrance_exam, y=final)) + 
  geom_point()+
  geom_smooth(method=lm, color="black")+
  # labs(title="Correlation between Diagnostic testscore and Percentage",
       # x= "Total testscore", y = "Percentage" )+
  theme(plot.title = element_text(size=15, face="bold", hjust = 0.5))

enter image description here

1 个答案:

答案 0 :(得分:0)

如果违反了正态分布假设,则可以使用秩相关检验 (矛兵):cor.test(test_data$entrance_exam,test_data$final, m = 's')
它会返回Spearman的rho,您可以将其解释为好像Pearson的r

您可以使用百分比值的转换,但是由于Spearman相关性测试对数据进行排名,因此没有任何区别。

当您的一个轴表示为离散变量时,这将成为一个问题,在这种情况下,必须使用Kendall的tau

请参阅wikipedia page