Question

使用Nutch 1.9，如何获取已抓取页面的清晰内容（不带html标记）并以可读形式保存.content。索尔是这样做的方式还是可以在没有它的情况下完成以及如何完成？

还有一个子问题，如何使用bin / crawl脚本控制爬网深度？在bin / nutch crawl命令中有一个选项（和topN），但它现在已被弃用并且不会执行。

Answer 1

在nutch site.xml中添加此内容

<!-- tika properties to use BoilerPipe, according to Marcus Jelsma --> 
<property> 
  <name>tika.use_boilerpipe</name> 
  <value>true</value> 
</property> 
<property> 
  <name>tika.boilerpipe.extractor</name> 
  <value>ArticleExtractor</value> 
</property>

//这是针对nutch 1.7的，我不确定1.9

使用jsoup获取纯文本。

使用Nutch 1.9获取清晰的内容（无标记）

1 个答案: