Question

我有一个R 3m语料库，共有638MB，分3部分（源文档）。当我试图获得一个100字的词云时，花了12个小时（仍在运行）。有没有办法让这更快？

这是我的命令，应该得到100个字。

select * from MY_TABLE where CODE between (select INI_COD from CONFIG) and 999

我希望避免对源文档进行子集化，但如果需要可以。

是否有可能提取前100个单词然后构建单词云？

任何其他提高这一点的想法都值得赞赏。

加里 PS如果它有助于我的机器有32 gig ram，10使用和8核amd芯片运行在大约18％

Answer 1

看起来您正在将语料库传递到"code-runner.executorMap": { "c": "gcc $fullFileName && ./a.out" }，您应该在其中传递唯一术语及其频率的向量。

wordcloud

Answer 2

wordcloud（）可能并未针对您的清理进行优化。首先获取整个语料库的单词向量及其关联计数的向量。然后将此长度为100的向量传递给wordcloud。