我每天都会以TSV格式划分大量的数据(以太字节计)(每个文件几GB)。不幸的是,某些字段具有\n
个字符。
我正在尝试以一种使数据中的换行符不破坏行的方式创建外部表:(我尝试过
CREATE EXTERNAL TABLE test
( `column` int, `column1` string)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY '\t'
ESCAPED BY '\\'
LINES TERMINATED BY '\n'
STORED AS TEXTFILE
LOCATION '/home/';
我也尝试过
ROW FORMAT SERDE 'org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe'
WITH SERDEPROPERTIES ( 'field.delim' = '\t', 'line.delim'='\n')
和
ROW FORMAT SERDE 'org.apache.hadoop.hive.serde2.OpenCSVSerde'
WITH SERDEPROPERTIES (
"separatorChar" = "\t",
"quoteChar" = "'",
"escapeChar" = "\\"
)
在两种情况下我都没有运气,字段中的换行符导致该行终止:(
我如何通过列换行符使我的tsv进入蜂巢状态?