Hive中的多行插入

时间:2013-10-17 13:12:45

标签: hadoop insert hive

我试图通过文件插入Hive表。但事实上,文本文件中的最后一列有数据溢出不同的行。

示例数据:

col1|col2|col3|this line is spilling into different line
               as is this, this is spilling this is spilling this is sp
               iliing and so is this
col1|col2|col3|this can be inserted without problem

因此,溢出的数据被视为新行而不是包装到最后一列。我尝试使用以选项终止的行,但无法使其工作。

1 个答案:

答案 0 :(得分:0)

这是一个更普遍的问题的特殊情况,即在列中嵌入换行符(行尾/记录)符号。典型的csv文件格式在字符串字段周围具有引号字符,因此通过注意换行符在引号内来简化在字段中检测嵌入的换行符。 您没有引号字符,但您确实知道字段数,因此您可以检测换行符何时会导致记录过早结束。但是在最后一个字段中检测换行更难。您需要注意后续行没有字段分隔符,并假设这些后续行是记录的一部分。