我试图通过R中文本中每个句子的极性来检查包含大约80.000个txt文档的数据库。
我的问题是我的计算机无法将txt文件转换为语料库(12gb RAM,8个CPU,Windows 10) - 需要两天以上的时间。
我发现有一种方法可以将所有CPU与DCorpus功能并行使用。但是,从Dcorpus开始,我不知道如何运行splitSentence-function,转换为数据帧以及使用所有CPU并行极性函数的评分。
此外,我不确定代码的并行化是否有助于我使用RAM?
提前感谢您的帮助!
答案 0 :(得分:0)
所有问题都来自tm
套餐使用,效率极低
例如,尝试使用text2vec包。我相信您将能够在几分钟内完成分析,并且使用非常适中的ram
披露 - 我是这个软件包的作者。