我在Hive Metastore中的HDFS中以镶木地板格式存储了一些文本数据。每个观察可能包括也可能不包括\ n作为文本本身的一部分。 我需要将此数据导出到文本(制表符或逗号分隔)文件,以便在Python中进一步分析。 如果我要对数据运行查询并保存到文本文件,我会得到:
ID,TXT 1,我喜欢这个网站\ n明天我会写更多 2,这个网站有多酷啊
此时,由于额外的\ n,我的行被搞砸了。 我试图导出数据,但regexp_replace函数似乎没有产生我期望的剥离:
select id, regexp_replace(txt,'\\n',' ') as txt
from table
limit 1000
有关如何处理此事的任何想法?