我有一个扫描的PDF,它具有一些表格格式的随机数据,并且想要将其复制到Excel工作表中。
我玩过数字PDF,并使用“表格”提取表格,但扫描的PDF需要OCR(在Google上可以看到)。 我知道涉及到OCR(tesseract),但不知道我应该采取什么方法解决问题。
答案 0 :(得分:0)
看看Tesseract的TSV(制表符分隔值)输出格式,看看Excel是否可以读取或导入它。可能需要一些转换才能将其转换为Excel可以使用的格式。
https://digi.bib.uni-mannheim.de/tesseract/manuals/tesseract.1.html
答案 1 :(得分:0)
免费的OCR API具有table recognition模式。
在OCR API中,isTable = true
开关触发表扫描逻辑。 OCR API文档的表OCR标志部分提供了更多详细信息。