我使用apache nutch抓取网站并将其索引到Apache Solr.i不知道如何搜索字符串和带有solr的网站中的html标记? 感谢
答案 0 :(得分:0)
最简单的方法是从HTML中提取数据并索引提取的数据。您可以使用HTMLStripCharFilterFactory从输入流中删除HTML。
<analyzer>
<charFilter class="solr.HTMLStripCharFilterFactory"/>
<tokenizer class="solr.StandardTokenizerFactory"/>
</analyzer>