Question

我正在尝试从document（FAA的一份报告）第52页开始的表中提取数据。

问题在于表格包含为图片。我有机会在不手动进行操作的情况下获得一些指示的方法吗？

我尝试使用Adobe的OCR函数将其转换为文本，并且还尝试使用R的制表包中的extract_tables函数。

我当然可以手动执行此操作，但是最好知道是否有更有效的方法来完成此操作。

Answer 1

有可能，但是其准确性取决于图像。我总是使用灰度图像。 Here可用工具的示例。对于您的情况，建议您对表进行一些截屏，并使用OCRFeeder比较GOCR和Tesseract的结果。

sudo apt-get install gocr tesseract-ocr ocrfeeder

ocrfeeder -i image.jpg

经过一些手动检查，您可以将该文件导入LibreOffice Calc，另存为“ csv”，然后导入R。