读取带有多个文本框的PDF文件,就像R中的专利文件一样

时间:2018-07-08 16:40:30

标签: r text-mining

我使用R分析PDF文档。当我尝试读取包含多列的PDF文档时遇到问题。逐行读取文档,将文本混合在一起。我希望能够逐栏阅读,任何人都可以帮助我吗?

这就是我阅读文档的方式

library(tm)
files <- list.files(pattern = "pdf$")
Rpdf <- readPDF(control = list(text = "-layout"))(elem = list(uri = files), language="en", id="id1")

example of document

0 个答案:

没有答案