我将文本文件加载到hive外部表中。该文本文件的分隔符为/
以区分列。此外,一些列在一列中具有新行字符。因此,存储在外部表中的数据不匹配。在我的情况下,唯一键是row_id
,其中包含1_234
之类的值。 rowid
是数字。但由于文本文件中有新的行字符,因此某些行在row_id
中有文本。
有没有办法在hive中删除这些行,或者如何删除hdfs中文本文件中的换行符?
答案 0 :(得分:0)
在加载到Hive之前,您必须编写一个hadoop(流式传输是一个选项)作业来清理数据。