我正在构建一个搜索引擎(为了好玩)而且让我感到震惊的是,我的小项目可能会因点击广告和各种问题而肆无忌惮。
那么良好的网络玩家'礼仪'的指导方针是什么?
让人想起的事情:
停止抓取工具点击广告 - 目前我特别想到这一点......我如何阻止我的机器人“点击”广告?如果直接转到广告中的网址,是否会被视为点击?
答案 0 :(得分:3)
您不会只阅读robots.txt指令。您还应该看到meta tags with noindex and nofollow。
关于广告问题,我不确定,但我想如果您只是阅读了链接,然后其他时间进入该页面,则输入的页面将没有关于您如何获得该地址的信息,并且不能向网站收取“伪点”
答案 1 :(得分:2)
请勿关注标记为rel =“nofollow”的链接。
此外,您不必担心广告。如果您只抓取网页的HTML文字,那么在大多数情况下,您将无法获得广告链接 - 它们是使用javascript在客户端生成的。