' pdftotext' Windows 7上遇到的错误 - 在Linux下正确处理相同的PDF

时间:2014-10-10 18:46:26

标签: linux windows-7 pdftotext poppler xpdf

我有一个pdftotext的旧Linux版本(0.12.4)运行没有问题,但我想在Windows 7机器上运行它。

我从http://gnuwin32.sourceforge.net/packages/xpdf.htm下载了Windows安装程序,其中显示的是最新版本xpdf-2.03-bin.exe

我接受了所有安装程序默认设置。当我在Linux版本正确处理的PDF文件上运行Windows 7 pdftotext时,我收到以下一系列错误消息:

 - Error <0>: PDF file is damaged - attempting to reconstruct xref table ...
 - Error: Couldn't find trailer dictionary
 - List item Error: Couldn't read xref table

我对这些错误消息进行了网络搜索,但我发现与这些错误相关的问题似乎与我遇到的问题无关。

有没有人在Windows 7上遇到pdftotext这个问题或者知道如何解决它?

1 个答案:

答案 0 :(得分:1)

从版本号猜测:

    Linux上的
  • 0.12.4
  • Windows上的
  • 2.03

你似乎使用了两个非常不同的野兽,它们都包含一个名为pdftotext的实用程序:

  • 版本0.12.4是基于 Poppler pdftotext版本,于2010年2月发布。现在已经快5年了,今天已经过时了。 Poppler是来自XPDF原始代码库的'fork',发生在2005年。自从fork发生以来,它的开发速度比“母”代码快,并且已经获得了更多的附加功能。 +有用的功能。但是,很难找到适用于Windows的预编译二进制文件。最新版本为0。30。0(2015年1月)。

  • 版本2.03是基于 XPDF pdftotext版本,于2003年10月发布。现在已超过11年,它是 。 XPDF是提供pdftotext实用程序的原始软件。它于1995年首次发布。它仍在开发中,虽然比Poppler前叉慢得多。其最新版本是3.04版(2014年5月),可以是 downloaded here 。注意 - 可能是您的主要兴趣:此版本包含一个新的文本提取器!