使用Nutch 1.9获取清晰的内容(无标记)

时间:2014-10-27 23:14:11

标签: solr web-crawler nutch

使用Nutch 1.9,如何获取已抓取页面的清晰内容(不带html标记)并以可读形式保存.content。索尔是这样做的方式还是可以在没有它的情况下完成以及如何完成?

还有一个子问题,如何使用bin / crawl脚本控制爬网深度?在bin / nutch crawl命令中有一个选项(和topN),但它现在已被弃用并且不会执行。

1 个答案:

答案 0 :(得分:1)

在nutch site.xml中添加此内容

<!-- tika properties to use BoilerPipe, according to Marcus Jelsma --> 
<property> 
  <name>tika.use_boilerpipe</name> 
  <value>true</value> 
</property> 
<property> 
  <name>tika.boilerpipe.extractor</name> 
  <value>ArticleExtractor</value> 
</property> 

//这是针对nutch 1.7的,我不确定1.9

使用jsoup获取纯文本。