Question

我刚开始使用R，并且对R中的聚类分析有疑问。我应用agnes函数对数据集进行聚类分析。但是当我使用.txt文件和.csv文件时，我意识到群集结果和pltree不同。

也许最好用图像解释我的问题：

.txt格式的我的数据集； enter image description here

我使用以下代码查看R中的数据；

data01 <- read.table("D:/CLUSTER_ANALYSIS/NumericData3_IN.txt", header = T)

一切都很好，看起来好像； enter image description here

我应用聚类分析，

complete1 <- agnes(data01, stand = FALSE, method = 'complete')
plot(complete1, which.plots=2, main='Complete-Linkage')

这是pltree： enter image description here

我对.csv文件执行了相同的步骤，该文件包含完全相同的数据集。这是.csv格式的数据集： enter image description here

再次对.csv文件进行聚类分析：

data02 <- read.csv("D:/CLUSTER_ANALYSIS/NumericData3.csv", header = T)

complete2 <- agnes(data02, stand = FALSE, method = 'complete')

plot(complete2, which.plots=2, main='Complete-Linkage')

pltree完全不同， enter image description here

因此，txt的DECIMAL SEPARATOR为COMMA，而csv文件为DOT。以下哪个结果正确？数字数据集的逗号是小数点分隔符还是R中的点？

Answer 1

在read.table（和read.csv）上的R manual中，您可以看到默认的分隔符。它们是您使用的每个功能的点。您也可以使用“ dec”参数将它们设置为任意值。例如：

data01 <- read.table("D:/CLUSTER_ANALYSIS/NumericData3_IN.txt", header = T, dec=",")

使用R Studio进行聚类分析时，同一数据集的结果不同？

1 个答案: