我是hadoop的新手,正在开发一个大数据项目,我必须清理并过滤给定的csv文件。 就像给定csv文件有200列一样,我只需要选择20个特定列(所谓的数据过滤)作为进一步操作的输出。 另外,作为数据清理的一部分,我必须检查日期列的正确日期格式,并将所有格式更改为DD-MM-YYYY等单一格式。
到目前为止,我能够阅读给定文件,但是您能否建议如何选择特定列以及检查日期格式?
答案 0 :(得分:0)
您也可以使用Apache Pig进行过滤和验证日期格式。请按照以下步骤操作:
使用ForEach法则选择20列(您可以只提供列名称/编号,如$ 0,$ 3,$ 5..etc)
编写UDF以验证日期格式(参考 - http://www.crackinghadoop.com/pig-java-udf-validate-date-format/)