如何在postgresql中搜索不同的字符集?

时间:2014-01-08 08:52:14

标签: sql regex postgresql unicode postgresql-9.1

我想搜索包含阿拉伯文和英文文本的postgres数据库中的表格。例如:

id | content
-----------------
1  | دجاج    
2  | chicken
3  | دجاج chicken

结果会让我排第3行。

我想这与使用正则表达式限制字符有关,但我找不到一个干净的解决方案来选择它们。我试过了:

SELECT regexp_matches(content, '^([x00-\xFF]+[a-zA-Z][x00-\xFF]+)*')
FROM mg.messages;

但是,这只匹配{}中的英语和一些非英语字符。

2 个答案:

答案 0 :(得分:2)

我一般对阿拉伯语文本或RTL语言一无所知,但这很有效:

create table phrase (
  id serial,
  phrase text
);

insert into phrase (phrase) values ('apple pie');
insert into phrase (phrase) values ('فطيرة التفاح');

select *
from phrase
where phrase like ('apple%')
or phrase like ('فطيرة%');

http://sqlfiddle.com/#!15/75b29/2

答案 1 :(得分:0)

如果要查找阿拉伯语范围(U + 0600-> U-06FF)中至少具有一个Unicode字符的所有文章,则必须使用以下内容:

SELECT content FROM mg.messages WHERE content ~ E'[\u0600-\u06FF]';

确实会返回ID 1(仅阿拉伯语), ...您将必须调整模式以匹配任何阿拉伯字符,再跟另一个ASCII(英语)字符。

如果您要搜索其他任何字符集(范围),以下是所有Unicode Blocks(希伯来语,希腊语,西里尔字母,象形文字,表意文字,装饰符号等)的列表