在R-trouble绘图集群中观察了一百万个观测值

时间:2013-12-06 07:18:28

标签: r plot machine-learning k-means rstudio

我正在尝试用超过一百万行执行KMeans聚类,包含4个观察值,全部为数字。我使用以下代码:

kmeansdf<-as.data.frame(rbind(train$V3,train$V5,train$V8,train$length))
km<-kmeans(kmeansdf,2)

可以看出,我想将我的数据分成两组。对象km正在填充,但我无法绘制结果。这是我用来绘制的代码:

plot(kmeansdf,col=km$cluster)

这段代码给了我以下错误:

Error in plot.new() : figure margins too large

我尝试在线研究,但找不到解决方案,我也尝试在命令行上工作,但仍然遇到同样的错误(我现在正在使用RStudio)

我们非常感谢您解决此错误的任何帮助。 TIA。

1 个答案:

答案 0 :(得分:2)

当我在1e6行的df上运行代码时,我没有得到相同的错误,但是系统挂起(10分钟后中断)。可能是创建一个每帧1e6点的散点图矩阵太多了。

您可以考虑随机抽样:

# all this to create a df with two distinct clusters
set.seed(1)
center.1 <- c(2,2,2,2)
center.2 <- c(-2,-2,-2,-2)
n <- 5e5
f <- function(x){return(data.frame(V1=rnorm(n,mean=x[1]),
                                   V2=rnorm(n,mean=x[2]),
                                   V3=rnorm(n,mean=x[3]),
                                   V4=rnorm(n,mean=x[4])))}
df <- do.call("rbind",lapply(list(center.1,center.2),f))

km <- kmeans(df,2)         # run kmeans on full dataset
df$cluster <- km$cluster   # append cluster column to df

# sample is 10% of population (100,000 rows)
s  <- 1e5
df <- df[sample(nrow(df),s),]
plot(df[,1:4],col=df$cluster)

使用1%样本(50,000行)运行相同的操作即可。

enter image description here