R中大文本对象的大文本文件的示例输出

时间:2019-06-25 16:07:57

标签: r text-mining tm corpus

我有一个大型语料库对象,因为有3个大文件(总计> 1gb)。

清除文本后,我想要 查看随机样本的数据说在控制台上显示1000行,看是否可以!

我找不到任何有关如何在合理的时间(1分钟)内从语料库类中采样数据的资料。

我运行的一些代码是:

writeLines(as.character(docs), con="testing.txt")

head(strwrap(corp))

There are这里提供了许多解决方案来可视化整个数据,但是又花费了太长时间。

最糟糕的是停止进程的唯一方法,因为上述代码正在关闭控制台!我还看了corpus_sample。最接近我想要的内容来自str(),它给出了第一个文档的第一行,并且记录时间到了。

This answer看起来很有前途,但是事实证明,语料库对象中没有documents$textscorp$documents$texts

  1. 为什么没有人似乎不需要此功能?
  2. 有没有办法对几条随机线进行快速采样?

PS

问了类似的问题here

0 个答案:

没有答案