使用nutch抓取twitter,linkedin

时间:2013-09-14 06:19:12

标签: linkedin nutch web-crawler

我一直在尝试使用nutch来抓取twitter和linkedin数据 Nutch的-0.9。

  1. 然而,当我尝试抓取twitter时,正则表达式过滤器似乎无法正常工作,我的正则表达式过滤器文件有 + ^ HTTPS://([A-Z0-9] *) twitter.com/a 我想做的是只抓取那些遵循上述模式的网址。我最终得到了https://twitter.com/document等网址。
  2. 对于linkedin部分,每当我尝试抓取它时,它总是显示超时,在linkedin上的robots.txt说你需要邮件让你的抓取工具列入白名单,但他们从不回复。
  3. 感谢您的帮助!

2 个答案:

答案 0 :(得分:0)

如果您想要抓取此特定网址,则应包括以下行

  

- *

此命令将排除所有其他网址! 此外,如果您想抓取Twitter或linkedin,您可以使用指定的抓取工具,例如twit4jlinkedin-j

答案 1 :(得分:0)

据我所知,Nutch不支持抓取Twitter和Linkedin数据。要使用Twitter API抓取Titter数据,请检查此http://twitter4j.org/en/。要抓取关联数据,您可以查看此https://github.com/pondering/scrapy-linkedin

希望这有帮助