如何计算大型DocumentTermMatrix的单词之间的余弦相似度

时间:2017-03-13 15:32:45

标签: r parallel-processing tm cosine-similarity

我有一个大的tdm,我需要每个术语与其他术语的余弦相似性。标准程序没有帮助,因为我收到以下错误。

 Error: cannot allocate vector of size 1162.4 Gb

由于我是R中并行处理的新手,我无法用它来完成工作.Below是一个小数据集。任何帮助都会很棒。

 library(tm)
 data("crude")
 tdm <- TermDocumentMatrix(crude)

理想的输出需要如下。

  Word   Related_Word  cosine_distance
  oil        opec                   0.5
  oil        spill                  0.3
   .....................................................
   .....................................................

0 个答案:

没有答案