如何获取从PDF到文本的位置数据

时间:2016-09-29 06:20:11

标签: windows perl pdf

我需要将PDF文件转换为文本以使用Perl提取信息。但我没有得到位置格式的文本文件意味着PDF和文本中元素的位置应该相同。我试过CAM::PDF::PageText,但输出结果非常不同。

我遇到过有关pdftotext和Poppler的帖子,但我无法在Windows 10 64位系统中设置任何这些帖子。

如果有其他方法可以解决此问题,请告诉我。

2 个答案:

答案 0 :(得分:1)

What you really want pdftohtml-xml输出。你可以build it on Windows

  

在Windows上有两种编译poppler的方法:

     
      
  • 在cygwin下使用mingw编译器
  •   
  • 使用本机Visual Studio(msvc)makefile
  •   
     

本文档介绍第二种方法。   ...

您可以根据许可条款下载Visual Studio Community Edition,以获得2013和2015版本的编译器和构建工具以及IDE。

或者,您可以获得Visual C++ build tools。另请参阅Walkthrough: Compiling a Native C++ Program on the Command Line

答案 1 :(得分:0)

很抱歉延迟但最后我得到了一个解决方案,这是Xpdf的pdftotext,最好的方法是下载预编译的二进制文件(.exe)。然后使用命令行调用,我们可以使用各种工具,如pdftohtml,pdftotext等。

看看这个页面

  

http://www.foolabs.com/xpdf/download.html

在“预编译的二进制文件”标题下,您可以找到它。

在命令提示符下,您需要将目录更改为二进制文件所在的位置,然后使用文件作为参数调用二进制文件

Exapmle: pdftotext File1.pdf

上面的命令会将File1.txt放在存在二进制文件的同一文件夹中。