Question

我在R中使用pdftools从pdf获取文本，但是在获取信息时遇到了一些问题。

当我尝试获取文本时，带有example的pdf文件：

library(pdftools)
pdf_text(paste(ruta, "Factura.pdf"))

（Ruta是您放置pdf的位置）。有了这个文件，我什么也得不到。此步骤适用于完美的pdf文件（例如this），但是当pdf文件扫描信息时，就会失去准确性。

是否还有其他方法可以使用R从pdf获取文本来解决此类问题？

谢谢

Answer 1

问题在于，your example是图像PDF，是仅以PDF存储的图像。

如果要从图像PDF中提取文本。您可以使用Tesseract

library(tesseract)
eng <- tesseract("eng")
text <- tesseract::ocr("http://jeroen.github.io/images/testocr.png", engine = eng)
cat(text)

此外，您需要先将pdf转换为img。选中this answer

im.convert("bm.pdf", output = "bm.png")