嘿伙计们,我在SOLR中索引数据时设法从内容中剥离HTML。
但是,在简单存储数据时是否可以从数据中删除HTML?
这是我的领域:
<field name="Content" type="textNoHTML" indexed="true" stored="true"/>
并且,字段类型“textNoHTML”实现了solr.HTMLStripCharFilterFactory:
<charFilter class="solr.HTMLStripCharFilterFactory" />
正如我所说,这适用于索引,但是是否可以应用类似的过滤器进行存储?
喝彩!
答案 0 :(得分:3)
如果您使用的是DataImportHandler,则可以使用HTMLStripTransformer。
否则,您必须自己实施此客户端。如果您的客户端是.NET,则可以使用HtmlAgilityPack。