使用Nutch 1.9,如何获取已抓取页面的清晰内容(不带html标记)并以可读形式保存.content。索尔是这样做的方式还是可以在没有它的情况下完成以及如何完成?
还有一个子问题,如何使用bin / crawl脚本控制爬网深度?在bin / nutch crawl命令中有一个选项(和topN),但它现在已被弃用并且不会执行。
答案 0 :(得分:1)
在nutch site.xml中添加此内容
<!-- tika properties to use BoilerPipe, according to Marcus Jelsma -->
<property>
<name>tika.use_boilerpipe</name>
<value>true</value>
</property>
<property>
<name>tika.boilerpipe.extractor</name>
<value>ArticleExtractor</value>
</property>
//这是针对nutch 1.7的,我不确定1.9
使用jsoup获取纯文本。