我可以使用过滤器替换字段中的数据吗?
假设数据。
<doc>
<field name=id>1</field >
<field name=contents>a article about specific subject</field>
</doc>
我将内容字段复制到类别字段
<copyField source="contents" dest="category"/>
类别字段有一个过滤器。
<field name="category" type="myType" stored="true" />
<fieldType name="myType" class="solr.TextField" positionIncrementGap="100">
<analyzer type="index">
<tokenizer class="myTokenizer"/>
<filter class="myFilter"/>
</analyzer>
</fieldType>
我想将此文档归类为哪个类别,并使用过滤器将结果放在类别字段中“正面”,“负面”。我已经实现了一个object-myFilter - 使用LDA进行分类,该对象使用已经定义的主题模型。
如何将原始数据替换为类别字段中的结果?有可能吗?
答案 0 :(得分:0)
应该可以使用Tokenizers接受Reader并对其进行标记和过滤 在您的情况下,您可以使用KeywordTokenizer,以便输入不被标记化,您可以设计一个过滤器来检查内容的语言以填充“类别”字段。
e.g。 developing-your-own-solr-filter
您只需要用LDA结果替换当前内容。