安装Scraperwiki for Python会生成错误pdftohtml not found

时间:2014-05-15 09:56:02

标签: python poppler scraperwiki pdf-to-html

我一直在尝试为Python安装Scraperwiki模块。但是,它会生成错误:

"" UserWarning:本地Scraperlibs需要pdftohtml,但在PATH中找不到pdftohtml。您可能需要安装它"

我看了poppler,因为他们有pdftohtml文件,但我不知道它是如何工作的 - 是否有我需要安装的python库或.exe文件。我该如何安装呢?在Windows上运行。

非常感谢

1 个答案:

答案 0 :(得分:0)

如果您不打算使用scraperwiki.pdftoxml(),则警告不适用。但是,它并不会阻止您安装scraperwiki包。

此外,该功能根本不适用于Windows;它使用行为differently on Windows to LinuxNamedTemporaryFiles

如果执行想要使用该功能,在Windows上获取最新版pdftohtml的最简单方法是下载Calibre Portable。 (Sourceforge上的版本较旧。)

安装在任何地方;你只需要一些文件。从您安装它的位置,从包含calibre.exe的文件夹,您需要pdftohtml.exe到您的工作文件夹以及Calibre安装中的DLLs文件夹,freetype.dll,{{ 1}},jpeg.dlllibpng12.dll

您还需要基于zlib1.dll的代码,例如:

scraperwiki.pdftoxml()

(我最近试图让这个用户在Windows中工作;我会保持包含此代码的gist更新。)