在SQL HIVE数据库中的字符串中的特定文本后查找数字值

时间:2017-09-05 12:06:03

标签: sql regex hive

是否可以使用正则表达式函数在一个字段中识别某个文本字符串后的数值?

我在COL_A中的值的示例是TAX_NO 1234567890, - 我想匹配TAX_NO存在的任何值,但我还想带回后面的数字 - 结果应该是TAX_NO 1234567890。

这很容易就像LIKE'%TAX_NO&',但问题是我们可以在这个字段中看到其他字符:TAX_NO 1234567890 2 apple street,也可以是苹果街的TAX_NO1234567890 -

如何只提取TAX_NO和后面的10位数?

理想情况下,这将用于匹配,使用TAX_NO 1234567890正确的参考文件,并将匹配另一个数据集,其中该值可以在多个字段中,如附加文本所述。

数据样本:

COL_A                                - DESIRED RESULT

TAX_NO 1234567890 MR SMITH           - TAX_NO 1234567890  
1/ TAX_NO 1234567890                 - TAX_NO 1234567890  
TAX_NO1234567890 2 APPLE ST          - TAX_NO 1234567890  
MR SMITH TAX_NO 1234567890           - TAX_NO 1234567890  
SMITH TAX_NO 1234567890 2 APPLE      - TAX_NO 1234567890  

TIA

0 个答案:

没有答案