我最近一直在构建一个处理重复事件的新网络应用程序。这些事件可以每天,每周或每月重复发生。
这一切都很有效。但是,当我开始创建事件浏览器页面(公共互联网将可见)时,脑子里想到了一个想法。
如果抓取工具点击此页面,使用下一个和上一个按钮来浏览日期,它将永远持续下去?所以我选择不使用通用HTML链接并使用AJAX。这意味着机器人将无法关注链接。
但是这种方法意味着我失去了没有Javascript的用户的任何功能。或者没有Javascript的用户数量太小而无法担心?
有没有更好的方法来解决这个问题?
我对Google Crawler这样的机器人如何检测到这样的黑洞及其处理方式非常感兴趣?
答案 0 :(得分:4)
向页面添加nofollow
标记,或添加您不想抓取的各个链接。这可以在robots.txt
或页面源中。请参阅Robots Exclusion Standard
您可能仍需要考虑如何抵御不符合标准的不良机器人。