网页抓取和robots.txt

时间:2011-06-29 12:02:48

标签: php wget

我用wget'下载'一个网站。

wget -r http://www.xyz.com

i)它返回 .css 文件, .js 文件和 index.php 以及图片 img1。 JPG

ii)但是, xyz.com 下存在更多图像。我输入了 www.xyz.com/Img2.jpg ,因此

得到了一张图片。

iii)但 index.php 是指单张图片,即 img1.jpg

iv)随附的机器人文件包含 Disallow:

在命令行中应该进行哪些更改以返回 xyz.com 下的所有内容,而不是

index.php 中引用,但在目录中是静态的。

1 个答案:

答案 0 :(得分:5)

不可能。 wget应该如何知道目录中的其他文件,除非你在某个地方有文件的链接?