Firefox生成无法搜索的pdf文件

时间:2013-05-03 12:48:45

标签: python firefox pdf selenium automation

目前我正在使用selenium和autoit编写用于Web自动化的软件。

我发现了一个奇怪的问题,对于某些使用firefox打印到pdf的页面,我得到了无法搜索的pdf。我尝试过ff 3.5,4.0,20,22,23 - 都有同样的问题。

您可以通过打印任何linkedin个人资料来重现它 - 您将获得无法搜索的PDF格式。

有没有人遇到过同样的行为?我怎样才能绕过它(使用python,selenium)? 我尝试过镀铬驱动程序,但它的速度会慢得多。

我正在运行Windows 7 x64终极版 它不会对使用的打印机产生影响 - 我尝试了很多不同的版本。 通过搜索,我的意思是我应该能够在大多数pdf文件中搜索文本。

更新 - 我仍然不明白为什么会这样。我尝试从IE 9打印相同的网页 - 它提供与firefox完全相同的打印对话框,并使用相同的pdf打印机驱动程序。然而,它产生可搜索的pdf。猜猜问题与firefox打印文档的方式有关。

1 个答案:

答案 0 :(得分:1)

Firefox无法控制将内容打印到PDF的方式。您的PDF打印机驱动程序负责将PDF文件创建为页面的位图快照,而不是从页面中的元素组成。与Firefox相比,您在Chrome中发现不同行为的原因是Chrome内置了“另存为PDF”,这与您安装的PDF驱动程序不同。所以它真正归结为您正在使用的PDF打印机驱动程序。