应用错误收集

时间：2014-09-11 09:57:00

标签： pdf-scraping

我想从网站下载数百个pdf文档。我已经尝试过像SiteSucker这样的工具，但它不起作用，因为似乎有一些＆＃34;分离＆＃34;文件和链接到它们的页面之间。我不知道如何以更好的方式描述这一点，因为我对网站编程或抓取不太了解。关于这可能是什么以及如何规避它的任何建议？

更具体地说，我试图下载联合国决议的pdf，存储在这样的页面上：http://www.un.org/depts/dhl/resguide/r53_en.shtml

似乎有一个内置的搜索功能，＆＃34;在联合国网站上，像SiteSucker一样进行虚拟抓取，不能按预期工作。

我还可以使用其他工具吗？

答案 0 :(得分：1)

单击您提到的页面上的链接会重定向到由两个框架（html）组成的页面。第一个是＆＃34;标题＆＃34;第二个加载页面以生成PDF文件并将其嵌入其中。很难猜到PDF文件的URL。我不知道可以废弃此类网页的免费工具。

以下是第二帧中以PDF文件结尾的网址示例：