我已经使用提取器插件配置了Apache Nutch,Solr来过滤html内容。我怎么能够使用css引擎或xpath引擎访问内部div内容。 提前谢谢。
答案 0 :(得分:0)
只需使用"文字"功能。例如,如果你的html看起来像这样:
<div class="target">
Hello <span>World!</span>
</div>
然后你的提取到规则与此类似:
<extract-to field="my-field">
<text>
<expr value=".target"/>
</text>
</extract-to>