我想抓住Twitter和facebook

时间:2014-11-02 13:48:08

标签: facebook twitter solr nutch

我现在正在制作爬虫。 它支持Web,Facebook和Twitter。 我的导师说它需要支持使用Facebook和Twitter API发帖,但我不知道如何。 我使用Solr作为搜索引擎并计划使用Nutch进行网络爬行。 我看到Nutch不支持这些API。 您能否推荐其他网络抓取工具或使用Nutch或其他方式获取帖子的方式,无论如何。 我非常感谢!

1 个答案:

答案 0 :(得分:1)

你想在facebook / twitter上抓什么?

只允许特定的搜索引擎机器人抓取Facebook。

访问https://facebook.com/robots.txt

在底部他们不允许除了列出的机器人之外的所有机器人。

因此,要从Facebook获取数据(如果这是您需要的),请使用API​​。

https://developers.facebook.com/

在Twitter中,您可以抓取几个网址

Allow: /?lang=
Allow: /hashtag/*?src=
Allow: /search?q=%23

如果你的目标是获取一些数据,那么更好的方法是使用API​​。

https://dev.twitter.com/