对于一家新的科技创业公司,我们希望建立一个所谓的“社交爬行者”。有了这个软件,我们希望让客户能够搜索潜在的员工。结果(例如,当搜索“iOS开发者”时)应该是基于bio和其他相关公共信息来自抓取来源的聚合社交概况,例如:twitter,linkedin等。
以下是我认为该过程应该如何运作:
设置应该是一个持续的聚合器,允许数据库自动增长。开发这些设置超出了我目前的知识。我想知道从哪里开始或与谁交谈,甚至是谁可以为我们开发这个。
我偶然发现Crawl Anywhere。这可能对我们有用吗?我很好奇你的想法是什么!
干杯!
答案 0 :(得分:1)
可以从Nutch with Solr开始,这将有助于您对数据进行抓取和索引 然后可以获得数据,该数据可用于搜索以及进一步处理。
答案 1 :(得分:1)
另外,要抓取Twitter数据,你应该使用Twitter API。据我所知,到目前为止,Nutch的当前版本不支持抓取Twitter数据。
干杯!