如何在Impala镶木地板文件中替换\ n?

时间:2016-02-16 17:11:54

标签: regex hadoop hdfs impala parquet

我在Hive Metastore中的HDFS中以镶木地板格式存储了一些文本数据。每个观察可能包括也可能不包括\ n作为文本本身的一部分。 我需要将此数据导出到文本(制表符或逗号分隔)文件,以便在Python中进一步分析。 如果我要对数据运行查询并保存到文本文件,我会得到:

ID,TXT 1,我喜欢这个网站\ n明天我会写更多 2,这个网站有多酷啊

此时,由于额外的\ n,我的行被搞砸了。 我试图导出数据,但regexp_replace函数似乎没有产生我期望的剥离:

select id, regexp_replace(txt,'\\n',' ') as txt
from table
limit 1000

有关如何处理此事的任何想法?

0 个答案:

没有答案