从配置单元中的列中删除html标记。想法

时间:2015-09-26 06:53:03

标签: hive

我在hive表中有一个列有这种格式的数据 -

col1 col2 att

  • 国际电话:每次电话 $ 5
sprint
  • 国际电话:每次电话 $ 10

我希望数据以这种格式显示 - 国际电话每次拨打5美元 国际电话每次拨打5美元

基本上删除所有标签。的想法!

1 个答案:

答案 0 :(得分:0)

使用regexp_replace功能怎么样?

SELECT regexp_replace(text,"</?[^>]*>","") FROM table;

例如:

hive> SELECT regexp_replace("< html >my text</html> <br>fd<br>","</?[^>]*>","");
OK
my text fd