我要制作自己的搜索引擎。
在搜索搜索引擎,抓取工具等时,我对Nutch感到困惑。
我不明白Nutch是什么。是供内部使用,如Lucene(如果我错了,请纠正我)或创建搜索引擎的框架(例如:google,bing,yahoo)?
答案 0 :(得分:2)
Nutch是一个功能齐全的搜索引擎 - 它可以抓取外部网站,它理解并尊重robots.txt。
http://nutch.apache.org/about.html
概述Nutch是开源的 网络搜索软件。它建立在 Lucene和Solr,添加了网络细节, 例如爬虫,链接图 数据库,HTML和其他解析器 文件格式等。
Nutch可以在一台机器上运行,但是 从中获得了很多力量 在Hadoop集群中运行
可以增强系统(例如其他 使用可以解析文档格式 一个插件机制。
有关Nutch的更多信息, 请看Nutch wiki。
答案 1 :(得分:0)
Nutch是一个现成的,可配置的网络爬虫,带有用于执行搜索的Java Servlet。如果你想把它作为一个项目,Nutch可能会做太多,因为剩下的就是创建用于输入搜索和显示结果的页面。