使用R Studio进行聚类分析时,同一数据集的结果不同?

时间:2018-11-23 14:35:33

标签: r csv decimal rstudio cluster-analysis

我刚开始使用R,并且对R中的聚类分析有疑问。 我应用agnes函数对数据集进行聚类分析。但是当我使用.txt文件和.csv文件时,我意识到群集结果和pltree不同。

也许最好用图像解释我的问题:

.txt格式的我的数据集; enter image description here

我使用以下代码查看R中的数据;

data01 <- read.table("D:/CLUSTER_ANALYSIS/NumericData3_IN.txt", header = T)

一切都很好,看起来好像; enter image description here

我应用聚类分析,

complete1 <- agnes(data01, stand = FALSE, method = 'complete')
plot(complete1, which.plots=2, main='Complete-Linkage')

这是pltree: enter image description here

我对.csv文件执行了相同的步骤,该文件包含完全相同的数据集。这是.csv格式的数据集: enter image description here

再次对.csv文件进行聚类分析:

data02 <- read.csv("D:/CLUSTER_ANALYSIS/NumericData3.csv", header = T)

complete2 <- agnes(data02, stand = FALSE, method = 'complete')

plot(complete2, which.plots=2, main='Complete-Linkage')

pltree完全不同, enter image description here

因此,txt的DECIMAL SEPARATOR为COMMA,而csv文件为DOT。以下哪个结果正确?数字数据集的逗号是小数点分隔符还是R中的点?

1 个答案:

答案 0 :(得分:1)

在read.table(和read.csv)上的R manual中,您可以看到默认的分隔符。它们是您使用的每个功能的点。您也可以使用“ dec”参数将它们设置为任意值。例如:

data01 <- read.table("D:/CLUSTER_ANALYSIS/NumericData3_IN.txt", header = T, dec=",")