我有一个R 3m语料库,共有638MB,分3部分(源文档)。当我试图获得一个100字的词云时,花了12个小时(仍在运行)。有没有办法让这更快?
这是我的命令,应该得到100个字。
select * from MY_TABLE where CODE between (select INI_COD from CONFIG) and 999
我希望避免对源文档进行子集化,但如果需要可以。
是否有可能提取前100个单词然后构建单词云?
任何其他提高这一点的想法都值得赞赏。
加里 PS如果它有助于我的机器有32 gig ram,10使用和8核amd芯片运行在大约18%
答案 0 :(得分:0)
看起来您正在将语料库传递到"code-runner.executorMap": {
"c": "gcc $fullFileName && ./a.out"
}
,您应该在其中传递唯一术语及其频率的向量。
wordcloud
答案 1 :(得分:-1)
wordcloud()可能并未针对您的清理进行优化。首先获取整个语料库的单词向量及其关联计数的向量。然后将此长度为100的向量传递给wordcloud。