并行cpu处理tm Dcorpus极性

时间:2015-10-22 12:21:13

标签: r parallel-processing tm

我试图通过R中文本中每个句子的极性来检查包含大约80.000个txt文档的数据库。

我的问题是我的计算机无法将txt文件转换为语料库(12gb RAM,8个CPU,Windows 10) - 需要两天以上的时间。

我发现有一种方法可以将所有CPU与DCorpus功能并行使用。但是,从Dcorpus开始,我不知道如何运行splitSentence-function,转换为数据帧以及使用所有CPU并行极性函数的评分。

此外,我不确定代码的并行化是否有助于我使用RAM?

提前感谢您的帮助!

1 个答案:

答案 0 :(得分:0)

所有问题都来自tm套餐使用,效率极低 例如,尝试使用text2vec包。我相信您将能够在几分钟内完成分析,并且使用非常适中的ram 披露 - 我是这个软件包的作者。