如何禁止网络爬虫下载PHP代码?

时间:2013-11-09 12:45:30

标签: php html security web-crawler

我在我的网站上运行了一个简单的网络抓取工具,它下载了整个网站的源代码。

是否可以阻止网页抓取工具从您的网站下载/保存任何PHP代码?没有加密,robots.txt中是否有一个简单的禁止规则,或者网页抓取工具通常可以下载任何网站的完整源代码?

3 个答案:

答案 0 :(得分:2)

只要您从网站上访问网页,就可以了。对于那些困惑的人,提问者似乎运行自己的抓取工具,并且因为它获取了本地地址,所以它会在本地抓取文件。

因此请确保它通过http访问它以防止源代码被抓取。

特别是对于你的代码,在再次递归函数之前,请检查你的域名是绝对的(以http://domain.tld开头),并且如果它不是这样的话就这样做(简单地在赢得& #39;如果您的网站上有相对网址,那么它会更复杂,请查看使用PHP将相对网址更改为绝对网址。)

答案 1 :(得分:1)

网络抓取工具只下载网站的html内容。它无法访问您的PHP脚本。

答案 2 :(得分:0)

如果您确定文件已经.php扩展,那么您的网站将在提供PHP源代码时呈现PHP源代码,机器人将无法下载源代码。它只会看到PHP生成的HTML,就像访问该网站的其他人一样。