标签: pdf web-scraping screen-scraping scrapely
我正试图为所有PDF文件抓取一个网站(obr.uk),以便将它们保存到我的计算机上。目前,我正在使用“ Outwit Docs”执行此操作,似乎效果不太好。它无法将某些页面识别为具有指向PDF文档的链接等。有另一种简单的(ish)解决方案吗?
我不太了解刮板,但似乎找不到任何相当简单的解决方案。
答案 0 :(得分:0)
您可以使用“网站下载器”工具,例如:
并按“文件类型” pdf过滤下载内容
您可以在此处找到工具列表: