我们有一个电子商务网站。由于一些营销和促销活动,如果用户第一次访问该网站是基于cookie的,我们将在主页上显示应用下载页面/横幅/促销/大图像(以及其他任何内容)。
但我不希望机器人/抓取工具看到此内容(大图),而是应该看到设置Cookie后的实际内容。两个内容的网址相同。
我可以在此澄清更多。如何避免机器人看到促销内容?
答案 0 :(得分:1)
您需要robots.txt个文件。
来自Wikipedia:
机器人排除标准,也称为机器人排除协议或robots.txt协议,是建议合作网络抓取工具和其他网络机器人访问其他公开可见的网站的全部或部分的惯例。搜索引擎经常使用机器人对网站进行分类和存档,或者由网站管理员用来校对源代码。该标准与Sitemaps(网站的机器人包含标准)不同,但可以与之结合使用。
请记住,如果机器人是" evil&#34 ;;但是,如果您正确设置,Google和其他搜索引擎应该遵守它。
答案 1 :(得分:0)
现在我正在使用此函数来检测php控制器代码中的机器人/爬虫,并根据需要进行重定向。
function bot_detected()
{
if
(
!isset($_SERVER['HTTP_USER_AGENT'])
||
empty($_SERVER['HTTP_USER_AGENT'])
||
preg_match('/bot|crawl|slurp|spider/i', $_SERVER['HTTP_USER_AGENT'])
||
preg_match('/scrappy/python/httpclient/Googlebot|DoCoMo|YandexBot|bingbot|ia_archiver|AhrefsBot|Ezooms|GSLFbot|WBSearchBot|Twitterbot|TweetmemeBot|Twikle|PaperLiBot|Wotbox|UnwindFetchor|facebookexternalhit/i', $_SERVER['HTTP_USER_AGENT'])
)
{
return TRUE;
}
return FALSE;
}