从R中的.docx读取文本及其相应的页码

时间:2018-07-30 19:09:24

标签: r tm text-analysis tidytext

如何读取R中的Microsoft .docx文件,并将文本作为一个字段并将页码作为另一字段?

我可以从readtext R库中读取文本,但是想知道您是否也知道如何获得页码吗?

install.packages("readtext")

library(readtext)

doc <- readtext(system.file("examples/realworld.docx", package="docxtractr"))

所以期望的输出应该是

text                page_number
text from page 1     1
text from page 2     2

请告知。

0 个答案:

没有答案