Question

我一直在尝试为Python安装Scraperwiki模块。但是，它会生成错误：

＆＃34;＆＃34; UserWarning：本地Scraperlibs需要pdftohtml，但在PATH中找不到pdftohtml。您可能需要安装它＆＃34; 。

我看了poppler，因为他们有pdftohtml文件，但我不知道它是如何工作的 - 是否有我需要安装的python库或.exe文件。我该如何安装呢？在Windows上运行。

非常感谢

Answer 1

如果您不打算使用scraperwiki.pdftoxml()，则警告不适用。但是，它并不会阻止您安装scraperwiki包。

此外，该功能根本不适用于Windows;它使用行为differently on Windows to Linux的NamedTemporaryFiles。

如果执行想要使用该功能，在Windows上获取最新版pdftohtml的最简单方法是下载Calibre Portable。（Sourceforge上的版本较旧。）

安装在任何地方;你只需要一些文件。从您安装它的位置，从包含calibre.exe的文件夹，您需要pdftohtml.exe到您的工作文件夹以及Calibre安装中的DLLs文件夹，freetype.dll，{{ 1}}，jpeg.dll，libpng12.dll。

您还需要基于zlib1.dll的代码，例如：

scraperwiki.pdftoxml()

（我最近试图让这个用户在Windows中工作;我会保持包含此代码的gist更新。）