应用错误收集

对于问题＃1：这五个文件夹到底包含哪些内容？

以下是nutch wiki page：

的详细信息

抓取数据库或抓取。这包含有关Nutch已知的每个URL的信息，包括是否已获取，以及何时，何时。

链接数据库或linkdb 。其中包含每个URL的已知链接列表，包括链接的源URL和锚文本。

一组细分。每个段都是一组以单元形式提取的URL。段是具有以下子目录的目录：

crawl_generate命名一组要提取的网址
crawl_fetch包含获取每个网址的状态
内容包含从每个网址检索到的原始内容
parse_text包含每个网址的解析文本
parse_data包含从每个URL解析的外链和元数据
crawl_parse包含用于更新crawldb的外链接URL

索引文件夹包含从已抓取内容和linkdb创建的索引。

拼写检查程序：这是为改进查询而生成的拼写检查索引。如果您想了解更多相关信息，This和this值得一读。另请参阅this。

对于问题＃2：“PageRank（或LinkRank）”在哪里工作？

阅读this和this。不确定this和this是否会有所帮助，但会增加您的知识。

对于问题＃3：Nutch是否会对页面进行索引并将solr再次编入索引？

爬网数据的索引由Apache Solr而非Nutch生成。

这是the internal working： Nutch将解析时收集的所有数据委托给IndexingFilter扩展，后者生成要索引的数据。过滤器的输出是NutchDocument，它再次被委托给Nutch。 Nutch然后决定是否应该根据映射文件索引数据，该映射文件定义哪些NutchDocument字段将映射到SolrDocument字段由Nutch读取。

集成Nutch1.4和Solr时输出究竟是什么？

1 个答案:

对于问题＃1：这五个文件夹到底包含哪些内容？

对于问题＃2：“PageRank（或LinkRank）”在哪里工作？

对于问题＃3：Nutch是否会对页面进行索引并将solr再次编入索引？