应用错误收集

我有一个大的tdm，我需要每个术语与其他术语的余弦相似性。标准程序没有帮助，因为我收到以下错误。

 Error: cannot allocate vector of size 1162.4 Gb

由于我是R中并行处理的新手，我无法用它来完成工作.Below是一个小数据集。任何帮助都会很棒。

 library(tm)
 data("crude")
 tdm <- TermDocumentMatrix(crude)

理想的输出需要如下。

  Word   Related_Word  cosine_distance
  oil        opec                   0.5
  oil        spill                  0.3
   .....................................................
   .....................................................

如何计算大型DocumentTermMatrix的单词之间的余弦相似度

0 个答案: