我想索引包含特殊字符(如货币符号)和表情符号的文本数据。目前我使用以下代码来索引这些数据:
<fieldTypename="text"class="solr.TextField">
<analyzer>
<tokenizerclass="solr.WhitespaceTokenizerFactory"/>
<filterclass="solr.LowerCaseFilterFactory"/>
<filterclass="solr.KeywordRepeatFilterFactory"/>
<filterclass="solr.StopFilterFactory"words="stopwords.txt"
ignoreCase="true"/>
</analyzer>
但是在检索数据时,我可以看到所有特殊字符和表情符号都被破坏,例如
Debtof1,590.79settledfor436.00
请建议可以在这里做些什么。
应用程序流程:数据首先存储在HBASE中,并且通过实时索引器将数据更新为SOLR。
CDH Ver:5.4.5 SOLR Ver:4.10.3 HBASE VEer:1.0.0
答案 0 :(得分:0)
我通过将表情符号转换为HTMLHex然后将其存储到SOLR来解决这个问题。在SOLR中,我现在可以看到Hex代码完整无缺,可以转换回到表情符号
使用的图书馆:
Lib to convert emoticons to Hex emoji-java