应用错误收集

并行cpu处理tm Dcorpus极性

时间：2015-10-22 12:21:13

标签： r parallel-processing tm

我试图通过R中文本中每个句子的极性来检查包含大约80.000个txt文档的数据库。

我的问题是我的计算机无法将txt文件转换为语料库（12gb RAM，8个CPU，Windows 10） - 需要两天以上的时间。

我发现有一种方法可以将所有CPU与DCorpus功能并行使用。但是，从Dcorpus开始，我不知道如何运行splitSentence-function，转换为数据帧以及使用所有CPU并行极性函数的评分。

此外，我不确定代码的并行化是否有助于我使用RAM？

提前感谢您的帮助！

1 个答案:

答案 0 :(得分：0)

所有问题都来自tm套餐使用，效率极低例如，尝试使用text2vec包。我相信您将能够在几分钟内完成分析，并且使用非常适中的ram 披露 - 我是这个软件包的作者。