我有两个大数据集,第一个数据集是数字,包含60759个对象和15个特征,第二个是分类包含60759个对象和9个特征,我试图计算数值集的欧几里德距离和简单匹配分类数据集。但由于数据的大小,我无法计算它们。
是否有人知道我们如何处理R
中的大数据答案 0 :(得分:0)
您可以将Microsoft R Open与RevoScaleR库一起使用。 RevoScaleR库旨在通过分成更小的块来处理大量数据。
在这里查看:
https://docs.microsoft.com/en-us/r-server/r/concept-what-is-revoscaler https://docs.microsoft.com/en-us/r-server/r-client/what-is-microsoft-r-client
答案 1 :(得分:0)
你可以试试paralleldDist
包C ++和多线程
https://cran.r-project.org/web/packages/parallelDist/parallelDist.pdf
parDist(x, method = "euclidean")