我有两个数字数据向量:NA_Sales
和EU_Sales
,它们实际上是相似的。
当我绘制这样的ECDF时:
plot(ecdf(dataset$NA_Sales))
lines(ecdf(dataset$EU_Sales), col="red")
然后我得到此图:
这表明它们确实很相似。但是当我像这样运行Kolmogorov-Smirnov测试时:
ks.test(dataset$NA_Sales,dataset$EU_Sales)
或
ks.test(dataset$NA_Sales,dataset$EU_Sales)$p
然后我得到一个等于零的p值。为什么?该图显示它们是相似的分布。
ks.test()
是否应该由CDF告知?我应该得到高于0.05的p值。