在下载站点上抓取页面以提取特定URL

时间:2011-05-10 08:16:18

标签: php web-scraping

在下载站点上,我想抓取镜像站点的所有URL。我正在使用PHP。

例如,在此页面上:

http://drivers.softpedia.com/progDownload/Gigabyte-GA-P55A-UD3-rev-10-Intel-SATA-RAID-Preinstall-Driver-9501037-Download-99091.html

我想提取以下网址:

http://drivers.softpedia.com/dyn-postdownload.php?p=99091&t=0&i=1
http://drivers.softpedia.com/dyn-postdownload.php?p=99091&t=0&i=2

2 个答案:

答案 0 :(得分:1)

尝试:

(http:\/\/drivers\.softpedia\.com\/dyn-postdownload\.php\?p=\d+&t=\d+&i=\d+)

答案 1 :(得分:0)

目前还不清楚您从源URL获取“t”和“i”参数的位置,它只包含id(p)。以下内容应该用于检索最后一组数字。

%(\d+)\.html$%