如何使用提取器插件中的css引擎访问内部html内容以进行过滤

时间:2014-12-04 06:10:18

标签: solr filtering nutch extractor

我已经使用提取器插件配置了Apache Nutch,Solr来过滤html内容。我怎么能够使用css引擎或xpath引擎访问内部div内容。 提前谢谢。

1 个答案:

答案 0 :(得分:0)

只需使用"文字"功能。例如,如果你的html看起来像这样:

<div class="target">
    Hello <span>World!</span>
</div>

然后你的提取到规则与此类似:

<extract-to field="my-field">
   <text>
       <expr value=".target"/>
   </text>
</extract-to>