我想从网站下载数百个pdf文档。我已经尝试过像SiteSucker这样的工具,但它不起作用,因为似乎有一些"分离"文件和链接到它们的页面之间。我不知道如何以更好的方式描述这一点,因为我对网站编程或抓取不太了解。关于这可能是什么以及如何规避它的任何建议?
更具体地说,我试图下载联合国决议的pdf,存储在这样的页面上:http://www.un.org/depts/dhl/resguide/r53_en.shtml
似乎有一个内置的搜索功能,"在联合国网站上,像SiteSucker一样进行虚拟抓取,不能按预期工作。
我还可以使用其他工具吗?
答案 0 :(得分:1)
单击您提到的页面上的链接会重定向到由两个框架(html)组成的页面。第一个是"标题"第二个加载页面以生成PDF文件并将其嵌入其中。很难猜到PDF文件的URL。我不知道可以废弃此类网页的免费工具。
以下是第二帧中以PDF文件结尾的网址示例:
http://daccess-dds-ny.un.org/doc/UNDOC/GEN/N99/774/43/PDF/N9977443.pdf?OpenElement