良好的网络玩家'礼仪'指南

时间:2009-06-09 13:33:13

标签: web-crawler

我正在构建一个搜索引擎(为了好玩)而且让我感到震惊的是,我的小项目可能会因点击广告和各种问题而肆无忌惮。

那么良好的网络玩家'礼仪'的指导方针是什么?

让人想起的事情:

  1. 观察Robot.txt说明
  2. 限制同时发送到同一域的请求数
  3. 请勿关注广告链接?
  4. 停止抓取工具点击广告   - 目前我特别想到这一点......我如何阻止我的机器人“点击”广告?如果直接转到广告中的网址,是否会被视为点击?

2 个答案:

答案 0 :(得分:3)

您不会只阅读robots.txt指令。您还应该看到meta tags with noindex and nofollow

关于广告问题,我不确定,但我想如果您只是阅读了链接,然后其他时间进入该页面,则输入的页面将没有关于您如何获得该地址的信息,并且不能向网站收取“伪点”

答案 1 :(得分:2)

请勿关注标记为rel =“nofollow”的链接。

此外,您不必担心广告。如果您只抓取网页的HTML文字,那么在大多数情况下,您将无法获得广告链接 - 它们是使用javascript在客户端生成的。