控制Facebook对许多爬行请求的爬行延迟

时间:2014-03-27 01:25:14

标签: mysql facebook apache web-crawler

Facebook使用该范围的IP地址抓取我的服务器 - 导致我的服务器停机多次

31.13.97.117
31.13.97.116
31.13.97.113
31.13.97.115
31.13.97.112
31.13.97.118
31.13.97.114
31.13.97.119

首先:它不管任何Robots.txt规则......所以不能使用Crawler-Delay。 第二:使用iptables(linux防火墙)停止抓取过程导致OpenGraph阅读,喜欢,分享和评论Facebook社交插件时出现问题。

请如何停止此抓取或控制它们与保持社交插件的工作..?

我看到了这个解决方案:excessive traffic from facebookexternalhit bot

但 解决方案可以是Apache Webserver还是Server端?

谢谢和问候

1 个答案:

答案 0 :(得分:0)

我决定使用IPtables(防火墙)快速解决这个IPS范围的速率或连接限制所以避免任何编程节流方式。

现在每60秒只能做10个连接,这仍然在测试中。

我的IPtables规则:

iptables -I INPUT -p tcp --dport 80 -i eth0 -m iprange --src-range 31.13.64.1-31.13.127.255 -m state --state NEW -m recent --set

iptables -I INPUT -p tcp --dport 80 -i eth0 -m iprange --src-range 31.13.64.1-31.13.127.255 -m state --state NEW -m recent --update --seconds 60 --hitcount 2 -j DROP

请注意;它必须根据你的评级进行调整......

因为它们会影响分享,喜欢,评论等大多数Facebook插件。