Lucene Tokenizer - 包括空间

时间:2017-02-13 14:16:05

标签: lucene sitecore sitecore8 sitecore8.1

我们有一个标记某些数据的应用程序。我遇到的问题是我有一个逗号分隔的字段,我需要标记而不是空格。例如:

"Age 6, Age 7, Age 8"

变为

Age
6
Age
7
Age
8

我需要

Age 6
Age 7
Age 8

我有办法更改某些字段的默认行为吗?

我目前的配置设置:

<field fieldName="SizeGroup" storageType="YES" indexType="TOKENIZED" vectorType="NO" 
boost="1f" type="System.String" 
settingType="Sitecore.ContentSearch.LuceneProvider.LuceneSearchFieldConfiguration, 
Sitecore.ContentSearch.LuceneProvider" />

1 个答案:

答案 0 :(得分:0)

不幸的是,我不知道C#,但我知道Lucene。因此,对于所需的行为,您需要使用PatternAnalyzer,它允许您指定将用于标记化的正则表达式。在您的情况下,像\\,这样的模式应该可用于分割逗号。