我正在一个网站上课,在课程完成后我们可以访问课程材料一年。 我真的想归档课程材料,以便我在一年后仍有材料可供查看。
我正在使用Chrome另存为提取javascript,CSS和其他相关数据,但它当然保留了媒体的外部链接。此外,该网站还使用了一些保存在Chrome-Save中作为外部链接的Flash播放器。 我真正需要做的是解析Chrome保存的页面并查找所有对图像,mp3和视频以及其他外部组件(如Flash播放器)的引用并下载它们并用本地版本的mp3和视频替换引用
以下是内容示例:
<div class="data-field interaction-init">
<span class="field">jplayer_swf_path</span>
<span class="value">https://dvgddacn5gars.cloudfront.net/60xh.swf?response-content-disposition=inline%3Bfilename%3D%22Jplayer.swf%22&Expires=2147483647&Signature=XyvcNPQ2w0A-b4kzZeodYQ2ono4twcwVk~FP3-pfyUKz1~G9xb61ci8qiekEBlZ0NF2RVkNGq~Rwrhigy-B5Lugv5QXR56gIgmnoq8AgtGWTiSIzBp-O5cR74UdyuYwjSo-3EqckmqPtOzFMKqlt0~7NqXMbXbwLq~8XqhH8eHU_&Key-Pair-Id=APKAIVZN4AJ762UIENTQ</span>
</div>
所以这是一些flash播放器。
我们也有
<div class="data-field interaction-asset">
<span class="field">audio_track</span>
<span class="value">https://dvgddacn5gars.cloudfront.net/43j8.mp3?response-content-disposition=inline%3Bfilename%3D%22Ex_12.1.mp3%22&Expires=2147483647&Signature=kQl-CRr0Cmc0PFbKJY398xLRCWGVlezfT6WXCWePj5AHLk1hLscckYrAl~fwlGM9MYcmTFn0cChHq7bHGXX51x6QjNtB56Dnk9I8JgmiflCwUXlyn6k~oyPLT7tsihZ7khU7OCLURkOnMOFl4rXAQTDoTUUAvBULDgnALCdYckw_&Key-Pair-Id=APKAIVZN4AJ762UIENTQ</span>
</div>
<div class="data-field interaction-asset">
<span class="field">images</span><span class="value">https://dvgddacn5gars.cloudfront.net/43j7.png?response-content-disposition=inline%3Bfilename%3D%22Ex_12.1.png%22&Expires=2147483647&Signature=iJQL3010zSrshQGInxoGi8ipxxZCB~Rwq5Oo3PiJmTz7wpOIuvHo9M24gSm8uWDG~20kDSKl~B~6OIEsRNsKEDzHDX4KbV7Xn6U9S19IP2nMR7FmK3njBcFgQZ82GocgTADY0bIRPizDHggGacgGagvtIxNLZF9D5wUc9ZNyAXQ_&Key-Pair-Id=APKAIVZN4AJ762UIENTQ</span>
</div>
所以这指的是一个mp3和一个图像。
下一个带有外部链接的相关部分:
<div id="jquery_jplayer_30" class="jp-jplayer" style="width: 0px; height: 0px;">
<img id="jp_poster_0" style="width: 0px; height: 0px; display: none;"><audio id="jp_audio_0" preload="none">
<source src="https://dvgddacn5gars.cloudfront.net/43j8.mp3?response-content-disposition=inline%3Bfilename%3D%22Ex_12.1.mp3%22&Expires=2147483647&Signature=kQl-CRr0Cmc0PFbKJY398xLRCWGVlezfT6WXCWePj5AHLk1hLscckYrAl~fwlGM9MYcmTFn0cChHq7bHGXX51x6QjNtB56Dnk9I8JgmiflCwUXlyn6k~oyPLT7tsihZ7khU7OCLURkOnMOFl4rXAQTDoTUUAvBULDgnALCdYckw_&Key-Pair-Id=APKAIVZN4AJ762UIENTQ" type="video/mp4"></audio>
</div>
下一段带有外部链接的代码:
<div class="image-area"><img src="https://dvgddacn5gars.cloudfront.net/43j7.png?response-content-disposition=inline%3Bfilename%3D%22Ex_12.1.png%22&Expires=2147483647&Signature=iJQL3010zSrshQGInxoGi8ipxxZCB~Rwq5Oo3PiJmTz7wpOIuvHo9M24gSm8uWDG~20kDSKl~B~6OIEsRNsKEDzHDX4KbV7Xn6U9S19IP2nMR7FmK3njBcFgQZ82GocgTADY0bIRPizDHggGacgGagvtIxNLZF9D5wUc9ZNyAXQ_&Key-Pair-Id=APKAIVZN4AJ762UIENTQ"></div>
所以基本上我们有一个网站集成了闪存模块,javascript模块,HTML元素,每个元素经常指向同一个外部文件,如上所示。
因此,最终的问题是,在我使用Chrome另存为保存所有课程页面之后,以任何方式解析生成的html文件并查找任何外部引用,下载它们,然后用本地链接替换外部链接吗
我对PHP非常了解,而其他语言则不然。无论如何,如果有人知道如何在PHP中执行这样的任务,我很想看到它!
顺便说一句,当我复制外部链接并粘贴在浏览器中时,它们下载得很好,所以即使它是经过身份验证的网站,似乎可以通过GET命令提取mp3,图像和视频吗?
或许还有更简单的方法可以设置Chrome工具来提取外部媒体?
谢谢,Brian