在R中绘制一百万个点?

时间:2014-03-25 10:36:44

标签: r statistics

我有一个文本文件(制表符分隔),它有3列A,B,C:

       A                          B                           C
0.07142857142857142      0.35714285714285715    0.21428571428571427
0.0                      0.3333333333333333     0.3888888888888889
0.07142857142857142      0.35714285714285715    0.21428571428571427
0.0                      0.3333333333333333         0.3888888888888889

每行代表一个具有3个不同百分比A,B和C的样本。总共有4个文件用于4种不同的生物。 每个文件可以有超过一百万行。

我的想法是绘制每一行,以便查看给定文件中的点对(A,B,C)的分布,然后确定给定文件中最频繁的对,然后比较4个文件。

我尝试在每个文件中绘制R中的这些点(同一图中的多曲线:y轴中的A,B,C和x轴上的样本数)但是有很多点基本上是图不能被解释。对于百万行文件,R崩溃并且不会绘制点。

代表这些观点的最佳方法是什么?模式函数也足以确定最常见的对(A,B,C),或者我可以尝试进行任何适当的统计测试吗?

非常感谢任何帮助。

感谢。

1 个答案:

答案 0 :(得分:0)

正如我在评论中提到的,clustering可能是您问题的解决方案。以下是使用kmeans进行群集的一种方法:

irisCl <- transform(iris, Cluster = kmeans(iris[1:4],3)$cluster)
library(ggplot2)
qplot(Sepal.Length, Sepal.Width, data=irisCl, colour=Species) + facet_grid(~Cluster)

kmeans

请注意,我们已经聚集在一个4维变量空间中。如您所见,setosa在第一个集群中被正确识别,第二个集群仅包含virginica,但第三个集群包含versicolor和virginica的混合。