我在R中使用pdftools从pdf获取文本,但是在获取信息时遇到了一些问题。
当我尝试获取文本时,带有example的pdf文件:
library(pdftools)
pdf_text(paste(ruta, "Factura.pdf"))
(Ruta是您放置pdf的位置)。 有了这个文件,我什么也得不到。此步骤适用于完美的pdf文件(例如this),但是当pdf文件扫描信息时,就会失去准确性。
是否还有其他方法可以使用R从pdf获取文本来解决此类问题?
谢谢
答案 0 :(得分:1)
问题在于,your example是图像PDF,是仅以PDF存储的图像。
如果要从图像PDF中提取文本。您可以使用Tesseract
library(tesseract)
eng <- tesseract("eng")
text <- tesseract::ocr("http://jeroen.github.io/images/testocr.png", engine = eng)
cat(text)
此外,您需要先将pdf转换为img。选中this answer
im.convert("bm.pdf", output = "bm.png")