PDF到文本(表格式)

时间:2018-04-17 17:59:07

标签: text ocr

将以下PDF文件转换为文字时出现问题!我是表格的第一列,但在文本中,一切都搞砸了。我不能使用正则表达式,因为有时第一列的格式出现在第二列!

2 个答案:

答案 0 :(得分:0)

您可以在线使用简单的OCR工具,例如http://www.newocr.com/

答案 1 :(得分:0)

您发布的PDF已包含文字。但正如您所发现的,PDF中的文本不一定是逐行的,它可能会非常混乱。 因此,PDF源中的行不一定与它们显示的位置相同。

一种解决方案是使用PDF to text converter

另一种解决方案是OCR文档并创建searchable PDF