BigQuery查找阿拉伯字符

时间:2016-05-25 20:42:21

标签: google-bigquery

有没有办法找到包含阿拉伯字符的所有行?

我有一个大型的名字数据集,我希望获得所有的阿拉伯名称,并以与我的数据集的其余部分不同的方式处理文本文件。

我读过的唯一可能的可能性是上传一个包含所有阿拉伯字符的表,并以某种方式进行JOIN /匹配。但是,由于我缺乏对阿拉伯语的了解,我想避免这种情况。

1 个答案:

答案 0 :(得分:4)

希望您将在下面享受并适用于您必须实施的任何逻辑

SELECT 
  v,
  IFNULL(REGEXP_EXTRACT(v, r'([\p{Cyrillic}]+)'), '') AS russian,
  IFNULL(REGEXP_EXTRACT(v, r'([\p{Arabic}]+)'), '') AS arabic,
  IFNULL(REGEXP_EXTRACT(v, r'([\p{Hebrew}]+)'), '') AS hebrew
FROM 
  (SELECT '12 - Table - Таблица' AS v),
  (SELECT '23 - Table - الطاولة' AS v),
  (SELECT '34 - Table - שולחן' AS v)

结果是

v                       russian     arabic      hebrew   
12 - Table - Таблица    Таблица          
23 - Table - الطاولة               الطاولة       
34 - Table - שולחן                              שולחן