猪正则表达式提取标签之间的数据

时间:2015-09-17 19:36:32

标签: regex apache-pig

我的文本文件(输入):

City,Description
Chicago,One day car rental is <b>$90</b>
Dallas,One day car rental is <b>$65</b>

需要输出:

City   Costofrental
Chicago, $90
Dallas,  $65

我正在使用regex提取来获取cost ($)详细信息但未获得所需的输出。 regex的新用户,请告诉我我错过了什么? TIA

A = LOAD '/user/Testfile.csv' USING PigStorage(',') AS(a1:chararray,a8:chararray); 
B = FOREACH A GENERATE a1,REGEX_EXTRACT(a8, '/<b>([0-9]*)</b>/',1);
dump B;

1 个答案:

答案 0 :(得分:2)

您需要将转义\$添加到正则表达式(以及转义结束</b>标记):

'/<b>(\$[0-9]*)<\/b>/'