我想实现一个搜索引擎,它应该抓取一组网站,从页面中提取特定信息并创建该特定信息的全文索引。
在我看来,Xapian可能是搜索引擎库的不错选择。
抓取工具/解析器与Xapian集成的选项有哪些?
Solr是否比Xapian更好地选择与开源搜寻器/解析器集成?
答案 0 :(得分:2)
Here's Xapian和Solr之间的一点比较。
但是如果您想构建一个抓取工具,请查看Nutch。它是extensible with plugins,因此您可以编写一个插件来分析您正在寻找的信息。
答案 1 :(得分:2)
Flax可能会提供您正在寻找的一些内容。