我想将包含来自Stack Exchange的250000个帖子的CSV文件加载到Hive中。 CSV采用以下格式:
Id Score ViewCount ParentId Body DisplayName rnk
每个字段都由","分隔。但是,搞砸一切的领域是身体。
正文包含网站上排名前250000个帖子的内容,因此其中包含所有类型的字符,因此每行有一个帖子,每行250000行。
我已经阅读了Serde和Regexp,但我仍然在我的Hive表中获得空值。
CREATE TABLE dataStore(Id string, Score string, ViewCount string, ParentId string, Body String, DisplayName String, Rank String)
ROW FORMAT SERDE 'org.apache.hadoop.hive.serde2.OpenCSVSerde'
WITH SERDEPROPERTIES (
"separatorChar" = ",",
"quoteChar" = """",
"escapeChar" = "\"
)
STORED AS TEXTFILE;
答案 0 :(得分:1)
我通常使用ogrodnek's serde,你可能会有更多运气。我也不认为你正确地逃脱了你的特殊角色,我相信你需要
"quoteChar" = "\"",
"escapeChar" = "\\"