阅读PDF文本

时间:2019-06-18 07:45:21

标签: r

我在R中使用pdftools从pdf获取文本,但是在获取信息时遇到了一些问题。

当我尝试获取文本时,带有example的pdf文件:

library(pdftools)
pdf_text(paste(ruta, "Factura.pdf"))

(Ruta是您放置pdf的位置)。 有了这个文件,我什么也得不到。此步骤适用于完美的pdf文件(例如this),但是当pdf文件扫描信息时,就会失去准确性。

是否还有其他方法可以使用R从pdf获取文本来解决此类问题?

谢谢

1 个答案:

答案 0 :(得分:1)

问题在于,your example是图像PDF,是仅以PDF存储的图像。

如果要从图像PDF中提取文本。您可以使用Tesseract

library(tesseract)
eng <- tesseract("eng")
text <- tesseract::ocr("http://jeroen.github.io/images/testocr.png", engine = eng)
cat(text)

此外,您需要先将pdf转换为img。选中this answer

  

im.convert("bm.pdf", output = "bm.png")