如何通过网页抓取基于Flash的网站?

时间:2017-12-03 22:27:45

标签: html google-chrome flash web-scraping google-chrome-devtools

我一直在尝试从网站下载大约1,500张图片几个小时,现在对脚本知识一无所知,这是非常痛苦的,所以我需要帮助。我试图从中下载内容的网站是一个基于Flash的网站,所以我不能像普通的HTML一样。

不知道这一点,我尝试使用名为“网页刮板”的Chrome网络扩展程序,但无法在网页上选择任何内容,我认为这是因为Flash使用了所谓的“二进制格式”。

所以我决定淘汰优秀的开发者工具,这就是我发现的:

当我在另一个标签上的“标题”下访问请求网址时,我可以看到图片并下载它,但是我不会这样做1500次......

经过一些关于抓取的研究后,我偶然发现了一个名为wget的程序,看起来它在这种情况下会有所帮助,所以我下载了它并在其中一个请求URL上尝试了它。它工作得很好并下载了图像。在玩了一些之后,我发现你可以在wget中链接一个URL列表,一次下载几个页面,所以我想我也许可以从Chrome的Headers选项卡中复制所有请求URL,将它们粘贴到wget,我会好的。但是,为了复制URL,我必须单独点击每个图像,这将永远需要。

您也无法在“名称”窗口中选择文件,按住Shift键并单击另一个文件以复制突出显示的素材列表,因为如您所见,名称之间有省略号(“...”)为了缩短它们的每个文件(我试图扩展“名称”窗口,希望它会显示整个名称,但它没有)。

那么有没有办法使用某种脚本同时下载其中几个文件?我可以用来学习脚本的任何资源都有用吗?

任何可能有用的替代方法?真的可以减少我在这里的时间的任何事情将不胜感激。谢谢:)。

1 个答案:

答案 0 :(得分:1)

您是否知道可以右键单击该开发工具网络列表并选择“另存为内容HAR”并搜索该文件中的数据。

另请参阅“复制”小节> '全部复制为HAR'

Save as HAR with content