数据中的错误记录以及将它们写入单独文件后如何将它们加载到配置单元中

时间:2019-02-14 22:55:58

标签: hadoop hive pyspark

在加载到配置单元表时如何处理数据?

我要处理具有以下内容的记录的数据加载

1.extra逗号在文件末尾
2.第

行中的数据不正确

示例:

id,name,city,date  
1,Robert,Boston,10/11/2018  
2,John,Phoenix,11/12/2018  
3,Peter,Atlanta,1/1/2019,  
4,Tom,Portland,Willsonvile,2/2/2019 

我要拒绝不良记录并将剩余的内容加载到配置单元表中,在此示例中,我想加载第3行和第4行,而仅加载第1行和第2行

请让我知道我们如何在实时环境中处理不良数据?

0 个答案:

没有答案