我有一个大型语料库对象,因为有3个大文件(总计> 1gb)。
清除文本后,我想要 查看随机样本的数据说在控制台上显示1000行,看是否可以!
我找不到任何有关如何在合理的时间(1分钟)内从语料库类中采样数据的资料。
我运行的一些代码是:
writeLines(as.character(docs), con="testing.txt")
head(strwrap(corp))
There are这里提供了许多解决方案来可视化整个数据,但是又花费了太长时间。
最糟糕的是停止进程的唯一方法,因为上述代码正在关闭控制台!我还看了corpus_sample
。最接近我想要的内容来自str()
,它给出了第一个文档的第一行,并且记录时间到了。
This answer看起来很有前途,但是事实证明,语料库对象中没有documents$texts
(corp$documents$texts
)
PS
问了类似的问题here。