我想搜索包含阿拉伯文和英文文本的postgres数据库中的表格。例如:
id | content
-----------------
1 | دجاج
2 | chicken
3 | دجاج chicken
结果会让我排第3行。
我想这与使用正则表达式限制字符有关,但我找不到一个干净的解决方案来选择它们。我试过了:
SELECT regexp_matches(content, '^([x00-\xFF]+[a-zA-Z][x00-\xFF]+)*')
FROM mg.messages;
但是,这只匹配{}中的英语和一些非英语字符。
答案 0 :(得分:2)
我一般对阿拉伯语文本或RTL语言一无所知,但这很有效:
create table phrase (
id serial,
phrase text
);
insert into phrase (phrase) values ('apple pie');
insert into phrase (phrase) values ('فطيرة التفاح');
select *
from phrase
where phrase like ('apple%')
or phrase like ('فطيرة%');
答案 1 :(得分:0)
如果要查找阿拉伯语范围(U + 0600-> U-06FF)中至少具有一个Unicode字符的所有文章,则必须使用以下内容:
SELECT content FROM mg.messages WHERE content ~ E'[\u0600-\u06FF]';
确实会返回ID 1(仅阿拉伯语), ...您将必须调整模式以匹配任何阿拉伯字符,再跟另一个ASCII(英语)字符。
如果您要搜索其他任何字符集(范围),以下是所有Unicode Blocks(希伯来语,希腊语,西里尔字母,象形文字,表意文字,装饰符号等)的列表