我想从网站的某些位置下载PDF。有一个主页面,其中包含指向子页面的链接以及数千个其他链接。要下载的所有PDF链接都在子页面上。
网站非常庞大,每个级别都有多级链接和数千个链接。
我想使用WGET优化下载,以便
- 只考虑两个级别 - 主页&子页面。
- 在主页上仅选择特定类型的链接。
- 根据主页
上的链接名称命名文件夹
醇>
下面给出的主页和子页面的URL模式。
主页 - >
- Page 1(PDF链接1 + PDF链接2 +许多其他链接)
- 第2页(PDF链接1 + PDF链接2 +许多其他链接)
- .......等等
网址格式
- 主页(https:// foo.com / mainpage)
- 子页面(https:// foo.com/mainpage/page/?id=1)
- PDF(https:// foo.com/a/pdf/asda.pdf,https:// foo.com/b/pdf/qwer.pdf)
由于