Gower在大数据上的距离

时间:2016-07-19 21:44:43

标签: r distance distance-matrix bigdata

我想对地理数据进行聚类,以对我所在地区的景观类型进行分类。

我的数据包括每个常规网格场的五个变量(温度,温度幅度,降水量,海拔高度和土壤类型)。我有超过100万个字段(=数据帧中的行)。

其中四个变量是数字,土壤类型是分类变量,描述为数字。 (数字数据已经标准化。)我决定计算Gower距离相异矩阵,并在此矩阵上执行PCA和层次聚类。但是,数据太大了。

   SOIL  PREC     TEMP     ALT      AMP
0  6     1.000    1.146    0.157   -0.579
1  6     0.948    1.224    0.154   -0.579
2  5     1.000    1.146    0.201   -0.662
3  6     1.078    1.093    0.177   -0.620
4  6     1.000    1.146    0.182   -0.620
5  6     1.000    1.146    0.186   -0.599

我不想抽样,因为变量是渐变的。我试图计算频率并在较小的数据上执行Gower距离,但它仍然太大。

我想我可能会 (1)手动chunk大数据集, (2)向每个块矩阵添加两个额外的行,其中变量的最大值和最小值为"描述"对于距离分析,每个变量的范围, (3)用gower.dist函数计算每个块的相异度矩阵, (4)删除多余的行和 (5)将所有块相异矩阵合并为一个大的相异矩阵。

你认为这是正确和有效的方式吗?您对如何处理此问题有任何其他建议吗?

在相异矩阵上执行PCA是否正确?

0 个答案:

没有答案