我正在尝试从document(FAA的一份报告)第52页开始的表中提取数据。
问题在于表格包含为图片。我有机会在不手动进行操作的情况下获得一些指示的方法吗?
我尝试使用Adobe的OCR函数将其转换为文本,并且还尝试使用R的制表包中的extract_tables函数。
我当然可以手动执行此操作,但是最好知道是否有更有效的方法来完成此操作。
答案 0 :(得分:0)
有可能,但是其准确性取决于图像。我总是使用灰度图像。 Here可用工具的示例。对于您的情况,建议您对表进行一些截屏,并使用OCRFeeder比较GOCR和Tesseract的结果。
sudo apt-get install gocr tesseract-ocr ocrfeeder
ocrfeeder -i image.jpg
经过一些手动检查,您可以将该文件导入LibreOffice Calc,另存为“ csv”,然后导入R。