我正在寻找大量网站并搜索所有网站,我应该使用什么系统?

时间:2011-06-01 07:53:00

标签: search full-text-search screen-scraping search-engine web-crawler

我需要搜索大约5000个有关于某些内容的信息的网站。因此,数据将以某种方式构建,例如item_id, name, description, date ....

页面上的额外信息仍应可搜索。

我的想法是我不需要关系数据库,我不需要进行逻辑查询,我只需要使用给定的关键字搜索数据。所以有人可以只输入"green yellow",它会搜索包含这两个单词的所有项目。考虑到这些项目可以达到数百万,我想知道哪种技术最适合使用,希望可扩展的东西,或者云上有解决方案?

对于抓取我正在考虑Node.js,因为我可以将它与jQuery绑定,它完美地提供了DOM和HTML结构。对于存储我仍然有点迷失,但我有一些Lucene的经验,所以我可以直接将已删除的数据存储在Lucene中。

你怎么看?那些做过类似事情的人的任何建议都会很棒!谢谢。

3 个答案:

答案 0 :(得分:2)

答案 1 :(得分:1)

Nutch实际上是完美的。它包含Lucene / Solr作为其搜索引擎组件。

另请查看Lucidworks的企业级Solr,它具有内置的网络爬虫以及相当简洁的GUI。

http://www.lucidimagination.com/products/lucidworks-search-platform/enterprise

答案 2 :(得分:0)

Solr对于此任务绝对是完美的