Facebook ip没有显示正确的用户代理

时间:2017-04-22 07:54:11

标签: facebook facebook-graph-api web-crawler user-agent

有IPs ex。 66.220.145.244这对我们造成了太多打击。我检查了它,它属于facebook,使用whois -h whois.radb.net -- '-i origin AS32934' | grep ^route命令here。 我能够获得facebook抓取工具的IP。 IP以上是facebook抓取工具之一。

根据facebook,这样的抓取工具会将用户代理显示为facebookexternalhit/1.1 (+http://www.facebook.com/externalhit_uatext.php) facebookexternalhit/1.1,但我看不到这些。我所看到的是Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.59 Safari/537.36

我的设置为cloudflare -> Load Balancer -> nginx -> app

我完全不知道为什么会这样。它搞砸了我们的分析很多。有没有办法联系Facebook并要求他们调查?我无法在我的水平上找到任何东西。对此的进一步指导将是非常棒的。

1 个答案:

答案 0 :(得分:1)

我没有足够的代表发表评论所以我必须以这种方式回应。我看到了同样的事情。它在过去几个月来来去去。我的应用程序会自动发布几十个社区页面,并且会有一段时间(天数结束),在发布后不久,在FB爬虫刮擦我的页面之后,它会受到来自Facebook的其他IP的影响。通常情况下,它会在正常机器人之后几秒钟内点击,但很快就会定期发现它绝对是一个机器人,而不是一个人(作为评论者之一)。

我收到的用户代理与您不同,但它来自同一个IP(66.220.145.244):

Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_4) AppleWebKit/603.1.30 (KHTML, like Gecko) Version/10.1 Safari/603.1.30"

它会在一段时间内(天数结束)同时影响我的所有页面和帖子,然后对所有这些页面和帖子停止(持续一周或更长时间)。我今天注意到它是"返回"所以我搜索了这个主题并发现了这篇文章。

我注意到引用URL来自l.facebook.com,这是FB的外部链接管理器。如果我点击了引用网址,那么我会看到一条消息:

  

离开Facebook   我们只是检查您是否要关注指向的链接   本网站:http://URL_TO_MY_PAGE

所以我的猜测是这是外部链接系统的验证器,但是为什么它只是不时被我不理解。我有预感他们可能会不时检查应用程序,以确保网站没有改变FB机器人的内容与普通浏览器相比。尽管如此,我并不认为他们假装自己是一个浏览器并不是因为它会破坏指标。

作为一种解决方案,我正在考虑从我的指标中过滤我在网站上发布的所有点击,这些点击是在我在FB上共享它的5-10秒内发生的。