标签: indexing solr html-entities
我正在索引Solr的文档,这些文档是从网上删除的。这些文档包含HTML实体(例如£或£)。大多数文件都包含中欧字符。这个任务有没有charfilter?我知道solr.MappingCharFilterFactory,但使用它意味着,我必须自己定义映射。我会更乐意使用由社区维护的共享解决方案。谢谢你的帮助!
£
£
答案 0 :(得分:1)
有solr.HTMLStripCharFilterFactory,可转换HTML个实体,但也会删除HTML个代码。
solr.HTMLStripCharFilterFactory
HTML