在SOLR中剥离HTML以进行存储,而不是索引

时间:2010-03-02 00:10:43

标签: indexing solr filtering

嘿伙计们,我在SOLR中索引数据时设法从内容中剥离HTML。

但是,在简单存储数据时是否可以从数据中删除HTML?

这是我的领域:

<field name="Content" type="textNoHTML" indexed="true" stored="true"/>

并且,字段类型“textNoHTML”实现了solr.HTMLStripCharFilterFactory:

<charFilter class="solr.HTMLStripCharFilterFactory" />

正如我所说,这适用于索引,但是是否可以应用类似的过滤器进行存储?

喝彩!

1 个答案:

答案 0 :(得分:3)

如果您使用的是DataImportHandler,则可以使用HTMLStripTransformer

否则,您必须自己实施此客户端。如果您的客户端是.NET,则可以使用HtmlAgilityPack