当我整合Nutch1.4和solr时,我注意到那里有两组输出。
我认为工作流程可能会在我的网站中显示:
1, Nutch-1.4抓取网站并生成三个文件夹:“crawler / crawldb”,“crawler / linkdb”,“crawler / segments”。
2, Solr索引文件夹“crawler /”并生成自己的文件夹“data / index”,“data / spellchecker”。
总共有五个文件夹。
我想知道的是:
1,这五个文件夹到底包含哪些内容?
2,“PageRank(或LinkRank)”在哪里工作?
3,Nutch是否会对页面进行索引并将索引再次编入索引?
非常感谢。
答案 0 :(得分:2)
以下是nutch wiki page:
的详细信息抓取数据库或抓取。这包含有关Nutch已知的每个URL的信息,包括是否已获取,以及何时,何时。
链接数据库或linkdb 。其中包含每个URL的已知链接列表,包括链接的源URL和锚文本。
一组细分。每个段都是一组以单元形式提取的URL。段是具有以下子目录的目录:
索引文件夹包含从已抓取内容和linkdb创建的索引。
拼写检查程序:这是为改进查询而生成的拼写检查索引。如果您想了解更多相关信息,This和this值得一读。另请参阅this。
阅读this和this。不确定this和this是否会有所帮助,但会增加您的知识。
爬网数据的索引由Apache Solr而非Nutch生成。
这是the internal working: Nutch将解析时收集的所有数据委托给IndexingFilter扩展,后者生成要索引的数据。过滤器的输出是NutchDocument,它再次被委托给Nutch。 Nutch然后决定是否应该根据映射文件索引数据,该映射文件定义哪些NutchDocument字段将映射到SolrDocument字段由Nutch读取。