Question

我有一个大型语料库对象，因为有3个大文件（总计> 1gb）。

清除文本后，我想要 查看随机样本的数据说在控制台上显示1000行，看是否可以！

我找不到任何有关如何在合理的时间（1分钟）内从语料库类中采样数据的资料。

我运行的一些代码是：

writeLines(as.character(docs), con="testing.txt")

head(strwrap(corp))

There are这里提供了许多解决方案来可视化整个数据，但是又花费了太长时间。

最糟糕的是停止进程的唯一方法，因为上述代码正在关闭控制台！我还看了corpus_sample。最接近我想要的内容来自str()，它给出了第一个文档的第一行，并且记录时间到了。

This answer看起来很有前途，但是事实证明，语料库对象中没有documents$texts（corp$documents$texts）

PS

问了类似的问题here。