在使用PostgreSQL对包含de西班牙语字符'Ñ'的文本进行全文搜索时,我遇到了一个问题
当我尝试将西班牙语单词“AÑO”(年份)标记时,我会得到以下结果,具体取决于输入是大写还是小写:
SELECT to_tsvector('spanish','AÑO'),to_tsquery('spanish','año')
"to_tsvector" "to_tsquery"
"'aÑo':1" "'año'"
正如您所看到的结果不一样且区分大小写,因此如果它们包含此字符,则会使我的应用程序全文搜索查询区分大小写。
有没有办法克服这个问题?我一直在搜索有关全文搜索的PostgreSQL文档,我不知道如何在已安装的词典中更改此行为。
非常感谢你。 塞马蒂
答案 0 :(得分:2)
to_tsvector
将Ñ
转换为ñ
的能力取决于区域设置,特别是lc_ctype
。据推测,您的数据库使用LC_CTYPE
,例如C
,其知识仅限于US-ASCII
。
LC_CTYPE
与Unicode兼容的示例:
test=> show lc_ctype; lc_ctype ------------- fr_FR.UTF-8 (1 row) test=> SELECT to_tsvector('spanish','AÑO'),to_tsquery('spanish','año'); to_tsvector | to_tsquery -------------+------------ 'año':1 | 'año' (1 row)
请注意,下注是你所期望的。
C
的相反示例:
创建:
CREATE DATABASE cc lc_ctype 'C' template template0;
请注意缺少下注,如问题所示:
cc=> show lc_ctype ; lc_ctype ---------- C (1 row) cc=> SELECT to_tsvector('spanish','AÑO'),to_tsquery('spanish','año'); to_tsvector | to_tsquery -------------+------------ 'aÑo':1 | 'año' (1 row)