Question

我想搜索包含阿拉伯文和英文文本的postgres数据库中的表格。例如：

id | content
-----------------
1  | دجاج    
2  | chicken
3  | دجاج chicken

结果会让我排第3行。

我想这与使用正则表达式限制字符有关，但我找不到一个干净的解决方案来选择它们。我试过了：

SELECT regexp_matches(content, '^([x00-\xFF]+[a-zA-Z][x00-\xFF]+)*')
FROM mg.messages;

但是，这只匹配{}中的英语和一些非英语字符。

Answer 1

我一般对阿拉伯语文本或RTL语言一无所知，但这很有效：

create table phrase (
  id serial,
  phrase text
);

insert into phrase (phrase) values ('apple pie');
insert into phrase (phrase) values ('فطيرة التفاح');

select *
from phrase
where phrase like ('apple%')
or phrase like ('فطيرة%');

http://sqlfiddle.com/#!15/75b29/2

Answer 2

如果要查找阿拉伯语范围（U + 0600-> U-06FF）中至少具有一个Unicode字符的所有文章，则必须使用以下内容：

SELECT content FROM mg.messages WHERE content ~ E'[\u0600-\u06FF]';

确实会返回ID 1（仅阿拉伯语）， ...您将必须调整模式以匹配任何阿拉伯字符，再跟另一个ASCII（英语）字符。

如果您要搜索其他任何字符集（范围），以下是所有Unicode Blocks（希伯来语，希腊语，西里尔字母，象形文字，表意文字，装饰符号等）的列表

如何在postgresql中搜索不同的字符集？

2 个答案: