将带有HTML值的CSV导入Solr

时间:2016-02-23 19:35:57

标签: html solr schema

我有一个要导入Solr的CSV文件。它的列HTMLText包含带有HTML标记的英文文本。

我应该如何编写schema.xml来正确导入此列?我正在使用示例模式XML,其中我看到了通用文本字段类型和英语字段类型,但我没有看到HTML的字段类型。

我知道post命令允许您发布整个HTML文档,因此可能会有一个字段解析器来处理这个问题,但我不知道它是什么。

是否在Solr中内置了HTML的解析器类型,还是应该从我的HTMLText列中删除HTML标记?

1 个答案:

答案 0 :(得分:1)

您可以将HTMLStripCharFilterFactory应用于某个字段,该字段会在任何标记化发生之前删除任何HTML。

它会删除评论和属性,因此它是否完全合适取决于您对最终结果的期望。