使用php隐藏来自网络抓取工具的内容。可能吗?

时间:2013-03-03 15:37:42

标签: php web-crawler

我是编程新手,所以如果我说一些愚蠢的事情,请不要评判我。

我想知道是否有任何方法可以欺骗网络抓取工具,因此网站的某些内容对于人类访问者而言将与网络蜘蛛不同。

所以我想到了这个想法。

每次访问者进入某个页面时,都会有一个脚本可以识别来自facebook API的用户性别。如果有返回(如果用户在同一浏览器中连接到Facebook),那么一些代码将使用PHP打印到页面代码。如果它是一个抓取工具,则不会返回,因此代码将不会存在于该页面的源代码中。

我知道PHP是一种服务器端语言,因此网络抓取工具无法扫描这些代码。如果我不对,请纠正我。

谢谢。

1 个答案:

答案 0 :(得分:0)

我认为您尝试做的事情可以通过robots.txt

完成

此文件可以位于您的Web目录的根目录,它定义了Web爬网程序的规则。 见这里:http://www.robotstxt.org/