是否可以使用R的并行处理功能执行CLARA聚类(通过采样进行聚类)?我在8个维度上有大约150000个点,所以我需要对样本进行聚类,否则我没有足够的处理能力来聚集它。
现在,我正在研发带有一个双核处理器(2.4 GHz Intel Core 2 Duo)的iMac,所以我假设我可以使用它来加速计算。由于有很多点,我需要执行聚类算法的多次迭代,以便找到最佳簇数和最佳样本量(尽管经过几次实验后,即使样本小到3000,结果也是如此与较大的样品一样好)。但是,当样本大小接近5000时,计算速度会减慢到几天。
在最新版本的R中执行此操作的最佳方法是什么?我已经读过已经内置并行处理功能(foreach,parallel packages)。但CLARA函数在某种意义上是原子的,它很难修改其内部代码以开启并行处理(至少对我而言)。
因此,理想情况下我想并行运行CLARA函数的内部代码,而不是使用不同参数并行运行此函数的迭代。