我需要将mysql db中的数据注入SOlR索引。 pb是我的DB中的字符是UTF8,我需要在LATIN1中将它们转换为重音符号。 有什么想法吗?
答案 0 :(得分:1)
一般来说,这是不可能的,因为UTF8跨越整个Unicode范围,目前1,112,064个代码点,Latin1不超过256个。如果您的文本使用Latin1完全涵盖的语言,您只需过滤掉代表高于255的代码点的UTF8字符(实际执行此操作的方式取决于您使用的技术并且未在您的问题中提及)。
即使您的语言仅使用256以下的字母字符,您的文本可能包含一些更高的UTF8非字母字符:这是一个常见问题,但是,由于您希望将Latin1用于搜索引擎索引,你可以忽略非字母字符(这些字符包括表情符号,今天的网络中非常常见的字符,YMMV)
我不明白为什么你不能在整个过程中使用UTF-8:Solr支持它。