我需要将PDF文件转换为文本以使用Perl提取信息。但我没有得到位置格式的文本文件意味着PDF和文本中元素的位置应该相同。我试过CAM::PDF::PageText
,但输出结果非常不同。
我遇到过有关pdftotext和Poppler的帖子,但我无法在Windows 10 64位系统中设置任何这些帖子。
如果有其他方法可以解决此问题,请告诉我。
答案 0 :(得分:1)
What you really want pdftohtml,-xml
输出。你可以build it on Windows。
在Windows上有两种编译poppler的方法:
- 在cygwin下使用mingw编译器
- 使用本机Visual Studio(msvc)makefile
本文档介绍第二种方法。 ...
您可以根据许可条款下载Visual Studio Community Edition,以获得2013和2015版本的编译器和构建工具以及IDE。
或者,您可以获得Visual C++ build tools。另请参阅Walkthrough: Compiling a Native C++ Program on the Command Line。
答案 1 :(得分:0)
很抱歉延迟但最后我得到了一个解决方案,这是Xpdf的pdftotext,最好的方法是下载预编译的二进制文件(.exe)。然后使用命令行调用,我们可以使用各种工具,如pdftohtml,pdftotext等。
看看这个页面
在“预编译的二进制文件”标题下,您可以找到它。
在命令提示符下,您需要将目录更改为二进制文件所在的位置,然后使用文件作为参数调用二进制文件
Exapmle: pdftotext File1.pdf
上面的命令会将File1.txt放在存在二进制文件的同一文件夹中。