我想从OCR数据中提取表信息,我有原始文本,也就是文本。 我尝试了pytesseract,但找不到实际的实现。
这是一张图片:https://drive.google.com/open?id=1CGJwbmf5snoXvwlQAsRAxIRRixbT_Q8l
我尝试过:https://github.com/WZBSocialScienceCenter/pdftabextract
这种方法根本不适合我。
我希望从OCR数据中获得该表格的表格结构,以便进行进一步处理。
答案 0 :(得分:0)
pdftabextract不是OCR。它需要使用OCR扫描的页面 信息,即同时包含已扫描内容的“三明治PDF” 图片和识别的文字。您需要像tesseract或 用于OCR的ABBYY Finereader。
请尝试tesseract,它的实现相对容易。
答案 1 :(得分:0)
我想从OCR数据中提取表信息,
尝试免费的Python OCR API。它有一个parsing data from tables的开关isTable
。它逐行返回表数据。但是它不会在列之间不放置分隔符,这是您需要根据对表内容的了解自行完成的事情。