python - 我想从OCR数据中提取表信息

时间：2019-01-20 05:22:02

标签： python image ocr pytesser

我想从OCR数据中提取表信息，我有原始文本，也就是文本。我尝试了pytesseract，但找不到实际的实现。

这种方法根本不适合我。

我希望从OCR数据中获得该表格的表格结构，以便进行进一步处理。

答案 0 :(得分：0)

pdftabextract不是OCR。它需要使用OCR扫描的页面信息，即同时包含已扫描内容的“三明治PDF” 图片和识别的文字。您需要像tesseract或用于OCR的ABBYY Finereader。

请尝试tesseract，它的实现相对容易。

答案 1 :(得分：0)

我想从OCR数据中提取表信息，

尝试免费的Python OCR API。它有一个parsing data from tables的开关isTable。它逐行返回表数据。但是它不会在列之间不放置分隔符，这是您需要根据对表内容的了解自行完成的事情。