使用下面的wget
命令
$ wget \
--recursive \
--no-clobber \
--page-requisites \
--html-extension \
--convert-links \
--restrict-file-names=windows \
--domains grantmlong.com \
--no-parent \
grantmlong.com/teaching/index.html
我一直在尝试从教授的course page下载所有内容。出于某种原因,尽管正确下载了网站其余部分的大部分图像内容,但并未下载reveal.js演讲幻灯片的图像。
例如,如果我在本地计算机上导航到grantmlong.com/teaching/lectures/
并打开lecture1.html
,则第三张幻灯片显示的是
在网站上,我发现图像位于https://grantmlong.com/teaching/lectures/img/hbr.png
。如果我导航到img
下载的本地wget
文件夹,则会看到
cd grantmlong.com/teaching/lectures/img
ls -1
l10_f0.png
l10_f1.png
l10_f2.png
l10_f3.png
l10_f4.png
l10_f5b.png
l10_f5.png
l10_f6.png
l10_f7.png
l10_p1.png
l10_p2.png
l11_p1.png
l11_p2.png
l11_p3.png
l11_p4.png
l11_p5.png
l11_p6.png
l12_p1.png
l12_p2.png
l5_e1.png
l5_e2.png
l5_e3.png
l5_e4.png
l5_glm.png
l5_logreg.png
l5_p10.png
l5_p11.png
l5_p1a.png
l5_p1b.png
l5_p2.png
l5_p3.png
l5_p4.png
l5_p5.png
l5_p6.png
l5_p7.png
l5_p8.png
l5_p9.png
l5_reg_output_1.png
l5_reg_output_2.png
l5_reg_output_3.png
l5_reg_output_4.png
l5_reg_output.png
l6_accuracy.png
l6_confusion.png
l6_p1.png
l6_precision.png
l6_recall.png
l9_p1.png
l9_p2.png
l9_p3.png
l9_p4.png
l9_t1.png
l9_t2.png
l9_t3.png
l9_t4.png
l9_t5.png
hbr.png
在任何地方都找不到,这表明这些Reveal.js幻灯片中的图像不被视为“页面必备条件”,wget
也未下载它们。
如何确保下载了这些图像?另外,请注意,reveal.js幻灯片上的某些图像来自giphy之类的第三方网站。我该如何确保下载了这些外部内容,同时对所有未显示.js幻灯片的页面都保留选项--domains grantmlong.com
为真?