标签: linkedin nutch web-crawler
我一直在尝试使用nutch来抓取twitter和linkedin数据 Nutch的-0.9。
感谢您的帮助!
答案 0 :(得分:0)
如果您想要抓取此特定网址,则应包括以下行
- *
此命令将排除所有其他网址! 此外,如果您想抓取Twitter或linkedin,您可以使用指定的抓取工具,例如twit4j或linkedin-j!
答案 1 :(得分:0)
据我所知,Nutch不支持抓取Twitter和Linkedin数据。要使用Twitter API抓取Titter数据,请检查此http://twitter4j.org/en/。要抓取关联数据,您可以查看此https://github.com/pondering/scrapy-linkedin。
希望这有帮助