我有一个大的tdm,我需要每个术语与其他术语的余弦相似性。标准程序没有帮助,因为我收到以下错误。
Error: cannot allocate vector of size 1162.4 Gb
由于我是R中并行处理的新手,我无法用它来完成工作.Below是一个小数据集。任何帮助都会很棒。
library(tm)
data("crude")
tdm <- TermDocumentMatrix(crude)
理想的输出需要如下。
Word Related_Word cosine_distance
oil opec 0.5
oil spill 0.3
.....................................................
.....................................................