我要创建的变量(文本中的数字强度)不是由我在增加语料库大小时在R中开发的代码完成的。
当包含来自语料库[0:200]的200个文档时,代码运行结果将在大约9秒钟内完成。当运行[0:400]时,大约需要18秒。但是,当我从语料库中使用[0:500]或更大的值时,代码将无法完成。整个语料库大约有6000个文档。
VAR2<-str_count(corpus1996[1:200], pattern="[0-9]+(?:.[0-9]+)*(?:%| percent| million| billion)")
VAR2<-str_count(corpus1996[1:400], pattern="[0-9]+(?:.[0-9]+)*(?:%| percent| million| billion)")
我希望我的整个[6000个文档]示例中都必须有一个代码,因此我可以将其推断为大约200.000个文档。