集成Nutch1.4和Solr时输出究竟是什么?

时间:2012-04-19 09:29:06

标签: solr lucene search-engine nutch

当我整合Nutch1.4和solr时,我注意到那里有两组输出。

我认为工作流程可能会在我的网站中显示:

1, Nutch-1.4抓取网站并生成三个文件夹:“crawler / crawldb”,“crawler / linkdb”,“crawler / segments”。

2, Solr索引文件夹“crawler /”并生成自己的文件夹“data / index”,“data / spellchecker”。

总共有五个文件夹。



我想知道的是:

1,这五个文件夹到底包含哪些内容?

2,“PageRank(或LinkRank)”在哪里工作?

3,Nutch是否会对页面进行索引并将索引再次编入索引?

非常感谢。

1 个答案:

答案 0 :(得分:2)

对于问题#1:这五个文件夹到底包含哪些内容?

以下是nutch wiki page

的详细信息

抓取数据库或抓取。这包含有关Nutch已知的每个URL的信息,包括是否已获取,以及何时,何时。

链接数据库或linkdb 。其中包含每个URL的已知链接列表,包括链接的源URL和锚文本。

一组细分。每个段都是一组以单元形式提取的URL。段是具有以下子目录的目录:

  1. crawl_generate命名一组要提取的网址
  2. crawl_fetch包含获取每个网址的状态
  3. 内容包含从每个网址检索到的原始内容
  4. parse_text包含每个网址的解析文本
  5. parse_data包含从每个URL解析的外链和元数据
  6. crawl_parse包含用于更新crawldb的外链接URL
  7. 索引文件夹包含从已抓取内容和linkdb创建的索引。

    拼写检查程序:这是为改进查询而生成的拼写检查索引。如果您想了解更多相关信息,Thisthis值得一读。另请参阅this

    对于问题#2:“PageRank(或LinkRank)”在哪里工作?

    阅读thisthis。不确定thisthis是否会有所帮助,但会增加您的知识。

    对于问题#3:Nutch是否会对页面进行索引并将solr再次编入索引?

    爬网数据的索引由Apache Solr而非Nutch生成。

    这是the internal working: Nutch将解析时收集的所有数据委托给IndexingFilter扩展,后者生成要索引的数据。过滤器的输出是NutchDocument,它再次被委托给Nutch。 Nutch然后决定是否应该根据映射文件索引数据,该映射文件定义哪些NutchDocument字段将映射到SolrDocument字段由Nutch读取。