我开发了Nodejs express服务器,我担心爬虫流量....我的意思是如果有人开始向我的服务器发送请求以使其失效,那么如何检测或避免它。
提前感谢。
答案 0 :(得分:2)
很难说出你在这里真正要问的是什么。
如果您真正询问的是如何在向您的网站发出请求时识别抓取工具,那么所有表现良好的抓取工具(例如来自Google的抓取工具)都会在请求中标识自己。您可以看到Google抓取工具如何执行此操作here。
如果你真正问的是如何防止服务器遭遇一次又一次流量过大且某些流量来自爬虫的情况,那么这是一个非常广泛的问题,需要吨有关您的特定服务器实例的信息,它目前支持的规模等等......这里有一篇关于一般主题的文章:Web Crawlers: Love the Good, but Kill the Bad and the Ugly。
对于Google,您实际上可以告诉它您网站上的最大抓取速度应该是多少。有关说明,请参阅此标题为"Change Googlebot crawl rate"的Google页面,但此设置仅在90天内保持有效,因此当您首次向网站添加大量新内容时,抓取工具会希望看到这些内容最有用
注意:您还调用了robots.txt文件来指示抓取工具要避免哪些部分。