应用错误收集

将带有HTML值的CSV导入Solr

时间：2016-02-23 19:35:57

标签： html solr schema

我有一个要导入Solr的CSV文件。它的列HTMLText包含带有HTML标记的英文文本。

我应该如何编写schema.xml来正确导入此列？我正在使用示例模式XML，其中我看到了通用文本字段类型和英语字段类型，但我没有看到HTML的字段类型。

我知道post命令允许您发布整个HTML文档，因此可能会有一个字段解析器来处理这个问题，但我不知道它是什么。

是否在Solr中内置了HTML的解析器类型，还是应该从我的HTMLText列中删除HTML标记？

1 个答案:

答案 0 :(得分：1)

您可以将HTMLStripCharFilterFactory应用于某个字段，该字段会在任何标记化发生之前删除任何HTML。

它会删除评论和属性，因此它是否完全合适取决于您对最终结果的期望。