将以下PDF文件转换为文字时出现问题!我是表格的第一列,但在文本中,一切都搞砸了。我不能使用正则表达式,因为有时第一列的格式出现在第二列!
答案 0 :(得分:0)
您可以在线使用简单的OCR工具,例如http://www.newocr.com/。
答案 1 :(得分:0)
您发布的PDF已包含文字。但正如您所发现的,PDF中的文本不一定是逐行的,它可能会非常混乱。 因此,PDF源中的行不一定与它们显示的位置相同。
一种解决方案是使用PDF to text converter。
另一种解决方案是OCR文档并创建searchable PDF。