Question

我需要将PDF文件转换为文本以使用Perl提取信息。但我没有得到位置格式的文本文件意味着PDF和文本中元素的位置应该相同。我试过CAM::PDF::PageText，但输出结果非常不同。

我遇到过有关pdftotext和Poppler的帖子，但我无法在Windows 10 64位系统中设置任何这些帖子。

如果有其他方法可以解决此问题，请告诉我。

Answer 1

在Windows上有两种编译poppler的方法：


在cygwin下使用mingw编译器

使用本机Visual Studio（msvc）makefile


本文档介绍第二种方法。   ...

您可以根据许可条款下载Visual Studio Community Edition，以获得2013和2015版本的编译器和构建工具以及IDE。

Answer 2

很抱歉延迟但最后我得到了一个解决方案，这是Xpdf的pdftotext，最好的方法是下载预编译的二进制文件（.exe）。然后使用命令行调用，我们可以使用各种工具，如pdftohtml，pdftotext等。

看看这个页面

http://www.foolabs.com/xpdf/download.html

在“预编译的二进制文件”标题下，您可以找到它。

在命令提示符下，您需要将目录更改为二进制文件所在的位置，然后使用文件作为参数调用二进制文件

Exapmle: pdftotext File1.pdf

上面的命令会将File1.txt放在存在二进制文件的同一文件夹中。