使用PHP从多个URL获取所有媒体(图像,视频...)

时间:2017-05-14 21:06:36

标签: php web-scraping reddit

您好我正在尝试编写一个PHP脚本,从subreddit下载所有图像和视频并将其存储在本地。

我的计划是从网址获取所有链接然后处理以确定它是图像还是视频然后下载。

如果有人可以指导我或者让我知道如何继续下去,我们将不胜感激。

1 个答案:

答案 0 :(得分:1)

我的想法是卷曲下载网站链接,所以你得到它的html版本,而不是看看this主题。有了这个,你可以提取所有需要的标签,例如" img"标签和他们的href。

然后将它们加载到数组中,并迭代curl以下载它们并将它们存储在本地。

另一种方法是下载html并加载基于过滤器的所有链接(例如,打开" \" http://"以报价结尾(也为单个过滤器制作另一个过滤器)引用,如果html中有单引号)。 不仅仅是迭代所有链接并根据扩展名将它们列入白名单,如果该文件是你感兴趣的话。比卷曲下载并存储它们。

编辑: 我忘了 - 也不要忘记修复.html和.css和.js(可能还有更多)文件中的链接。也只是offtopic sidenote,注意用PHP中的图像。