应用错误收集

时间：2011-06-01 07:53:00

标签： search full-text-search screen-scraping search-engine web-crawler

我需要搜索大约5000个有关于某些内容的信息的网站。因此，数据将以某种方式构建，例如item_id, name, description, date ....。

页面上的额外信息仍应可搜索。

我的想法是我不需要关系数据库，我不需要进行逻辑查询，我只需要使用给定的关键字搜索数据。所以有人可以只输入"green yellow"，它会搜索包含这两个单词的所有项目。考虑到这些项目可以达到数百万，我想知道哪种技术最适合使用，希望可扩展的东西，或者云上有解决方案？

对于抓取我正在考虑Node.js，因为我可以将它与jQuery绑定，它完美地提供了DOM和HTML结构。对于存储我仍然有点迷失，但我有一些Lucene的经验，所以我可以直接将已删除的数据存储在Lucene中。

你怎么看？那些做过类似事情的人的任何建议都会很棒！谢谢。

答案 0 :(得分：2)

就基于节点的webcrawler而言，请查看以下链接：

答案 1 :(得分：1)

Nutch实际上是完美的。它包含Lucene / Solr作为其搜索引擎组件。

另请查看Lucidworks的企业级Solr，它具有内置的网络爬虫以及相当简洁的GUI。

答案 2 :(得分：0)

Solr对于此任务绝对是完美的