如何抓取,处理和索引社交媒体配置文件?

时间:2013-05-22 10:18:22

标签: search solr indexing web-crawler

对于一家新的科技创业公司,我们希望建立一个所谓的“社交爬行者”。有了这个软件,我们希望让客户能够搜索潜在的员工。结果(例如,当搜索“iOS开发者”时)应该是基于bio和其他相关公共信息来自抓取来源的聚合社交概况,例如:twitter,linkedin等。

以下是我认为该过程应该如何运作:

  1. 抓取Twitter,Linkedin等网站
  2. 处理和匹配文档数据
  3. 索引汇总的个人资料
  4. 通过搜索服务器访问索引信息
  5. 设置应该是一个持续的聚合器,允许数据库自动增长。开发这些设置超出了我目前的知识。我想知道从哪里开始或与谁交谈,甚至是谁可以为我们开发这个。

    我偶然发现Crawl Anywhere。这可能对我们有用吗?我很好奇你的想法是什么!

    干杯!

2 个答案:

答案 0 :(得分:1)

可以从Nutch with Solr开始,这将有助于您对数据进行抓取和索引 然后可以获得数据,该数据可用于搜索以及进一步处理。

答案 1 :(得分:1)

另外,要抓取Twitter数据,你应该使用Twitter API。据我所知,到目前为止,Nutch的当前版本不支持抓取Twitter数据。

干杯!