价格比较网站 - 履带式

时间:2012-08-24 14:39:25

标签: php javascript web-crawler

我有一个价格比较网站。 您可以点击优惠的链接,我将从商店获得1美元。

问题是:抓取工具抓取整个网站。所以他们“点击链接”。 我如何防止他们点击? Javascript是一个糟糕的解决方案。

谢谢!

3 个答案:

答案 0 :(得分:1)

我一直在想这个错误的方式。

我同意@yttriuszzerbus上面所说的一切 - 将robots.txt添加到文件中,将“rel = nofollow”添加到链接,并阻止您了解的用户代理。

因此,如果您现在有人正在尝试点击某个链接,那么它既可能是活人,也可能是您不想点击的行为不当的机器人。

那么如何创建一些奇怪的东西来创建商店网站的链接?通常情况下,您永远不会这样做,因为它会使您的网站无法索引。但这不是问题 - 所有表现良好的机器人都不会将这些链接编入索引,因为他们将遵守robots.txt文件。

我在考虑那里没有<a href=标签的东西 - 相反,生成链接的文本,使用样式表为字体添加下划线,所以它看起来像是普通用户的链接,然后有一个javascript onClick函数,当用户点击它时重定向。机器人不会将其视为链接,用户也不会注意到这一点。

答案 1 :(得分:0)

你可以:

  1. 使用“rel = nofollow”指示抓取工具不要关注您的链接。

  2. 阻止某些用户代理字符串

  3. 使用robots.txt排除网站的传播。

  4. 不幸的是,以上都不会排除行为不当的抓取工具。实际阻止抓取工具的唯一解决方案是某种JavaScript链接或CAPTCHA。

答案 2 :(得分:0)

我也有类似的项目。 我的问题只能通过阻止某些用户代理字符串来解决。

另一个问题是我不知道每个“不良”用户代理的身份,因此,当新的搜寻器进入该网站时,我将其添加到黑名单中并追溯地从统计信息中删除其访问。

“ rel = nofollow”和robots.txt对我根本不起作用。