从PDF提取格式为图片的表格数据

时间:2018-09-17 20:21:18

标签: r pdf ocr

我正在尝试从document(FAA的一份报告)第52页开始的表中提取数据。

问题在于表格包含为图片。我有机会在不手动进行操作的情况下获得一些指示的方法吗?

我尝试使用Adobe的OCR函数将其转换为文本,并且还尝试使用R的制表包中的extract_tables函数。

我当然可以手动执行此操作,但是最好知道是否有更有效的方法来完成此操作。

1 个答案:

答案 0 :(得分:0)

有可能,但是其准确性取决于图像。我总是使用灰度图像。 Here可用工具的示例。对于您的情况,建议您对表进行一些截屏,并使用OCRFeeder比较GOCR和Tesseract的结果。

sudo apt-get install gocr tesseract-ocr ocrfeeder

ocrfeeder -i image.jpg

经过一些手动检查,您可以将该文件导入LibreOffice Calc,另存为“ csv”,然后导入R。