SOLR特殊字符和表情符号

时间:2015-11-20 08:02:44

标签: solr lucene hbase codepages indexer

我想索引包含特殊字符(如货币符号)和表情符号的文本数据。目前我使用以下代码来索引这些数据:     <fieldTypename="text"class="solr.TextField"> <analyzer> <tokenizerclass="solr.WhitespaceTokenizerFactory"/> <filterclass="solr.LowerCaseFilterFactory"/> <filterclass="solr.KeywordRepeatFilterFactory"/> <filterclass="solr.StopFilterFactory"words="stopwords.txt" ignoreCase="true"/> </analyzer>
但是在检索数据时,我可以看到所有特殊字符和表情符号都被破坏,例如
Debtof1,590.79settledfor436.00

请建议可以在这里做些什么。

应用程序流程:数据首先存储在HBASE中,并且通过实时索引器将数据更新为SOLR。

CDH Ver:5.4.5 SOLR Ver:4.10.3 HBASE VEer:1.0.0

1 个答案:

答案 0 :(得分:0)

我通过将表情符号转换为HTMLHex然后将其存储到SOLR来解决这个问题。在SOLR中,我现在可以看到Hex代码完整无缺,可以转换回到表情符号 使用的图书馆:
Lib to convert emoticons to Hex emoji-java