应用错误收集

时间：2013-05-22 10:18:22

标签： search solr indexing web-crawler

对于一家新的科技创业公司，我们希望建立一个所谓的“社交爬行者”。有了这个软件，我们希望让客户能够搜索潜在的员工。结果（例如，当搜索“iOS开发者”时）应该是基于bio和其他相关公共信息来自抓取来源的聚合社交概况，例如：twitter，linkedin等。

以下是我认为该过程应该如何运作：

设置应该是一个持续的聚合器，允许数据库自动增长。开发这些设置超出了我目前的知识。我想知道从哪里开始或与谁交谈，甚至是谁可以为我们开发这个。

我偶然发现Crawl Anywhere。这可能对我们有用吗？我很好奇你的想法是什么！

干杯！

答案 0 :(得分：1)

可以从Nutch with Solr开始，这将有助于您对数据进行抓取和索引然后可以获得数据，该数据可用于搜索以及进一步处理。

答案 1 :(得分：1)

另外，要抓取Twitter数据，你应该使用Twitter API。据我所知，到目前为止，Nutch的当前版本不支持抓取Twitter数据。

干杯！