我是编程新手,所以如果我说一些愚蠢的事情,请不要评判我。
我想知道是否有任何方法可以欺骗网络抓取工具,因此网站的某些内容对于人类访问者而言将与网络蜘蛛不同。
所以我想到了这个想法。
每次访问者进入某个页面时,都会有一个脚本可以识别来自facebook API的用户性别。如果有返回(如果用户在同一浏览器中连接到Facebook),那么一些代码将使用PHP打印到页面代码。如果它是一个抓取工具,则不会返回,因此代码将不会存在于该页面的源代码中。
我知道PHP是一种服务器端语言,因此网络抓取工具无法扫描这些代码。如果我不对,请纠正我。
谢谢。
答案 0 :(得分:0)
我认为您尝试做的事情可以通过robots.txt
完成此文件可以位于您的Web目录的根目录,它定义了Web爬网程序的规则。 见这里:http://www.robotstxt.org/