wget不会在Amazon AWS S3上下载文件

时间:2018-09-03 14:58:39

标签: amazon-web-services amazon-s3 https wget

我正试图从以下网页下载所有幻灯片

https://web.stanford.edu/~jurafsky/NLPCourseraSlides.html

我使用的命令是

wget --no-check-certificate --no-proxy -r -l 3 'https://web.stanford.edu/~jurafsky/NLPCourseraSlides.html'

我只能下载html和一些PNG文件。这些幻灯片托管在Amazon S3上,但是我无法使用上面的命令对其进行爬网。终端上显示的消息是

但是,我可以使用下面的命令直接下载那些幻灯片

wget http://spark-public.s3.amazonaws.com/nlp/slides/intro.pdf

有人知道为什么吗?如何使用单个命令下载该页面上的所有幻灯片?

1 个答案:

答案 0 :(得分:0)

您需要做的就是“ HTML Scraping”。这意味着您需要一个HTML页面,然后解析该页面内的HTML链接。解析之后,您可以下载,分类等在文档(网页)中找到的链接。

此StackOverflow文章在该主题中非常受欢迎:

Options for HTML scraping?