应用错误收集

尝试刮取PDF文档（未成功）

时间：2018-06-20 11:12:29

标签： pdf web-scraping screen-scraping scrapely

我正试图为所有PDF文件抓取一个网站（obr.uk），以便将它们保存到我的计算机上。目前，我正在使用“ Outwit Docs”执行此操作，似乎效果不太好。它无法将某些页面识别为具有指向PDF文档的链接等。有另一种简单的（ish）解决方案吗？

我不太了解刮板，但似乎找不到任何相当简单的解决方案。

1 个答案:

答案 0 :(得分：0)

您可以使用“网站下载器”工具，例如：

httrack：https://www.httrack.com/page/1/en/index.html
“ wget” Linux命令行

并按“文件类型” pdf过滤下载内容

您可以在此处找到工具列表：