R Wordcloud需要12个小时,我可以加快速度吗

时间:2016-11-14 11:44:35

标签: r big-o word-cloud

我有一个R 3m语料库,共有638MB,分3部分(源文档)。当我试图获得一个100字的词云时,花了12个小时(仍在运行)。有没有办法让这更快?

这是我的命令,应该得到100个字。

select * from MY_TABLE where CODE between (select INI_COD from CONFIG) and 999

我希望避免对源文档进行子集化,但如果需要可以。

是否有可能提取前100个单词然后构建单词云?

任何其他提高这一点的想法都值得赞赏。

加里 PS如果它有助于我的机器有32 gig ram,10使用和8核amd芯片运行在大约18%

2 个答案:

答案 0 :(得分:0)

看起来您正在将语料库传递到"code-runner.executorMap": { "c": "gcc $fullFileName && ./a.out" } ,您应该在其中传递唯一术语及其频率的向量。

wordcloud

答案 1 :(得分:-1)

wordcloud()可能并未针对您的清理进行优化。首先获取整个语料库的单词向量及其关联计数的向量。然后将此长度为100的向量传递给wordcloud。