您好我正在处理许多文件,这些文件在数据中有引号,如下所示。
“ID” | “学生” | “等级” “123” | “约翰” | “9.7” “132” | “约翰尼” | “8.7” “143” | “罗尼” | “8.17”
我想从数据中删除引号,请您告诉我它是如何完成的。如果完全使用任何内置的serdes将是有帮助的。因为我正在处理许多这样的文件。
答案 0 :(得分:1)
将此数据加载到临时配置表中。然后在插入表格时使用regex_replace()函数。
步骤:使用regex_replace()将覆盖插入到最终表中。
insert overwrite table select regexp_replace(COLUMN_NAME_1,"\"",""),regexp_replace(COLUMN_NAME_2,"\"","") from temp_hive_table;
已更新:
对于许多文件。
希望这种方法有所帮助。