Question

在使用PostgreSQL对包含de西班牙语字符'Ñ'的文本进行全文搜索时，我遇到了一个问题

当我尝试将西班牙语单词“AÑO”（年份）标记时，我会得到以下结果，具体取决于输入是大写还是小写：

SELECT to_tsvector('spanish','AÑO'),to_tsquery('spanish','año')
"to_tsvector"   "to_tsquery"
"'aÑo':1"   "'año'"

正如您所看到的结果不一样且区分大小写，因此如果它们包含此字符，则会使我的应用程序全文搜索查询区分大小写。

有没有办法克服这个问题？我一直在搜索有关全文搜索的PostgreSQL文档，我不知道如何在已安装的词典中更改此行为。

非常感谢你。塞马蒂

Answer 1

to_tsvector将Ñ转换为ñ的能力取决于区域设置，特别是lc_ctype。据推测，您的数据库使用LC_CTYPE，例如C，其知识仅限于US-ASCII。

LC_CTYPE与Unicode兼容的示例：

test=> show lc_ctype;
  lc_ctype   
-------------
 fr_FR.UTF-8
(1 row)

test=> SELECT to_tsvector('spanish','AÑO'),to_tsquery('spanish','año');
 to_tsvector | to_tsquery 
-------------+------------
 'año':1     | 'año'
(1 row)

请注意，下注是你所期望的。

C的相反示例：

创建：

CREATE DATABASE cc lc_ctype 'C' template template0;

请注意缺少下注，如问题所示：

cc=> show lc_ctype ;
 lc_ctype 
----------
 C
(1 row)

cc=> SELECT to_tsvector('spanish','AÑO'),to_tsquery('spanish','año');
 to_tsvector | to_tsquery 
-------------+------------
 'aÑo':1     | 'año'
(1 row)

PostgreSQL全文搜索西班牙语字符Ñ

1 个答案: