尝试刮取PDF文档(未成功)

时间:2018-06-20 11:12:29

标签: pdf web-scraping screen-scraping scrapely

我正试图为所有PDF文件抓取一个网站(obr.uk),以便将它们保存到我的计算机上。目前,我正在使用“ Outwit Docs”执行此操作,似乎效果不太好。它无法将某些页面识别为具有指向PDF文档的链接等。有另一种简单的(ish)解决方案吗?

我不太了解刮板,但似乎找不到任何相当简单的解决方案。

1 个答案:

答案 0 :(得分:0)

您可以使用“网站下载器”工具,例如:

并按“文件类型” pdf过滤下载内容

您可以在此处找到工具列表: