我有一个要导入Solr的CSV文件。它的列HTMLText
包含带有HTML标记的英文文本。
我应该如何编写schema.xml
来正确导入此列?我正在使用示例模式XML,其中我看到了通用文本字段类型和英语字段类型,但我没有看到HTML的字段类型。
我知道post
命令允许您发布整个HTML文档,因此可能会有一个字段解析器来处理这个问题,但我不知道它是什么。
是否在Solr中内置了HTML的解析器类型,还是应该从我的HTMLText
列中删除HTML标记?
答案 0 :(得分:1)
您可以将HTMLStripCharFilterFactory应用于某个字段,该字段会在任何标记化发生之前删除任何HTML。
它会删除评论和属性,因此它是否完全合适取决于您对最终结果的期望。