我需要搜索大约5000个有关于某些内容的信息的网站。因此,数据将以某种方式构建,例如item_id, name, description, date ....
。
页面上的额外信息仍应可搜索。
我的想法是我不需要关系数据库,我不需要进行逻辑查询,我只需要使用给定的关键字搜索数据。所以有人可以只输入"green yellow"
,它会搜索包含这两个单词的所有项目。考虑到这些项目可以达到数百万,我想知道哪种技术最适合使用,希望可扩展的东西,或者云上有解决方案?
对于抓取我正在考虑Node.js,因为我可以将它与jQuery绑定,它完美地提供了DOM和HTML结构。对于存储我仍然有点迷失,但我有一些Lucene的经验,所以我可以直接将已删除的数据存储在Lucene中。
你怎么看?那些做过类似事情的人的任何建议都会很棒!谢谢。答案 0 :(得分:2)
就基于节点的webcrawler而言,请查看以下链接:
http://www.coderholic.com/scraping-the-web-with-node-io/
答案 1 :(得分:1)
Nutch实际上是完美的。它包含Lucene / Solr作为其搜索引擎组件。
另请查看Lucidworks的企业级Solr,它具有内置的网络爬虫以及相当简洁的GUI。
http://www.lucidimagination.com/products/lucidworks-search-platform/enterprise
答案 2 :(得分:0)
Solr对于此任务绝对是完美的