删除配置单元外部表

时间:2017-01-31 19:58:59

标签: hadoop hive

我将文本文件加载到hive外部表中。该文本文件的分隔符为/以区分列。此外,一些列在一列中具有新行字符。因此,存储在外部表中的数据不匹配。在我的情况下,唯一键是row_id,其中包含1_234之类的值。 rowid是数字。但由于文本文件中有新的行字符,因此某些行在row_id中有文本。

有没有办法在hive中删除这些行,或者如何删除hdfs中文本文件中的换行符?

1 个答案:

答案 0 :(得分:0)

在加载到Hive之前,您必须编写一个hadoop(流式传输是一个选项)作业来清理数据。