我试图通过文件插入Hive表。但事实上,文本文件中的最后一列有数据溢出不同的行。
示例数据:
col1|col2|col3|this line is spilling into different line
as is this, this is spilling this is spilling this is sp
iliing and so is this
col1|col2|col3|this can be inserted without problem
因此,溢出的数据被视为新行而不是包装到最后一列。我尝试使用以选项终止的行,但无法使其工作。
答案 0 :(得分:0)
这是一个更普遍的问题的特殊情况,即在列中嵌入换行符(行尾/记录)符号。典型的csv文件格式在字符串字段周围具有引号字符,因此通过注意换行符在引号内来简化在字段中检测嵌入的换行符。 您没有引号字符,但您确实知道字段数,因此您可以检测换行符何时会导致记录过早结束。但是在最后一个字段中检测换行更难。您需要注意后续行没有字段分隔符,并假设这些后续行是记录的一部分。