R Script pdf to excel using pdftools

时间:2018-03-31 22:43:25

标签: r excel pdf

我正在使用pdftools将pdf转换为excel。我想提取表值。下面的代码工作得很好,但它将所有内容粘贴到行中(我的意思是值不是以不同的颜色分隔 - 我唯一想要的是表格,因为它在pdf中(数据和值)有人可以帮助代码吗?也许我们需要一个分隔符?希望能有所帮助! 以下3张图片: - 我得到的Excel输出,预期的Excel输出和我正在使用的PDF。

library(pdftools)
tx<-pdf_text("Path")
tx2<-strsplit(tx,"\n")
library(xlsx)
write.xlsx(tx2,file="ds.xlsx")

1 个答案:

答案 0 :(得分:2)

试试这个......

library(pdftools)
library(stringr)
library(xlsx)

tx <- pdf_text("Path")
tx2 <- unlist(str_split(tx, "[\\r\\n]+"))
tx3 <- str_split_fixed(str_trim(tx2), "\\s{2,}", 5)

write.xlsx(tx3, file="ds.xlsx")