我正在使用pdftools将pdf转换为excel。我想提取表值。下面的代码工作得很好,但它将所有内容粘贴到行中(我的意思是值不是以不同的颜色分隔 - 我唯一想要的是表格,因为它在pdf中(数据和值)有人可以帮助代码吗?也许我们需要一个分隔符?希望能有所帮助! 以下3张图片: - 我得到的Excel输出,预期的Excel输出和我正在使用的PDF。
library(pdftools)
tx<-pdf_text("Path")
tx2<-strsplit(tx,"\n")
library(xlsx)
write.xlsx(tx2,file="ds.xlsx")
答案 0 :(得分:2)
试试这个......
library(pdftools)
library(stringr)
library(xlsx)
tx <- pdf_text("Path")
tx2 <- unlist(str_split(tx, "[\\r\\n]+"))
tx3 <- str_split_fixed(str_trim(tx2), "\\s{2,}", 5)
write.xlsx(tx3, file="ds.xlsx")