我刚开始使用R,并且对R中的聚类分析有疑问。 我应用agnes函数对数据集进行聚类分析。但是当我使用.txt文件和.csv文件时,我意识到群集结果和pltree不同。
也许最好用图像解释我的问题:
.txt格式的我的数据集;
我使用以下代码查看R中的数据;
data01 <- read.table("D:/CLUSTER_ANALYSIS/NumericData3_IN.txt", header = T)
一切都很好,看起来好像;
我应用聚类分析,
complete1 <- agnes(data01, stand = FALSE, method = 'complete')
plot(complete1, which.plots=2, main='Complete-Linkage')
这是pltree:
我对.csv文件执行了相同的步骤,该文件包含完全相同的数据集。这是.csv格式的数据集:
再次对.csv文件进行聚类分析:
data02 <- read.csv("D:/CLUSTER_ANALYSIS/NumericData3.csv", header = T)
complete2 <- agnes(data02, stand = FALSE, method = 'complete')
plot(complete2, which.plots=2, main='Complete-Linkage')
pltree完全不同,
因此,txt的DECIMAL SEPARATOR为COMMA,而csv文件为DOT。以下哪个结果正确?数字数据集的逗号是小数点分隔符还是R中的点?
答案 0 :(得分:1)
在read.table(和read.csv)上的R manual中,您可以看到默认的分隔符。它们是您使用的每个功能的点。您也可以使用“ dec”参数将它们设置为任意值。例如:
data01 <- read.table("D:/CLUSTER_ANALYSIS/NumericData3_IN.txt", header = T, dec=",")