如何在solr中搜索html标签?

时间:2012-08-11 07:21:40

标签: solr lucene

我使用apache nutch抓取网站并将其索引到Apache Solr.i不知道如何搜索字符串和带有solr的网站中的html标记? 感谢

1 个答案:

答案 0 :(得分:0)

最简单的方法是从HTML中提取数据并索引提取的数据。您可以使用HTMLStripCharFilterFactory从输入流中删除HTML。

<analyzer>
  <charFilter class="solr.HTMLStripCharFilterFactory"/>
  <tokenizer class="solr.StandardTokenizerFactory"/>
</analyzer>