hadoop mapreduce如何从CSV文件中获取数据?

时间:2015-02-26 09:36:51

标签: csv hadoop input split mapreduce

我想实现hadoop mapreduce,我使用csv文件进行输入。所以,我想问一下,有没有任何方法可以使用hadoop来获取csv文件的值,或者我们只是用Java Split String函数来做?

全部谢谢.....

1 个答案:

答案 0 :(得分:3)

默认情况下,Hadoop使用文本输入阅读器,从输入文件中逐行提供映射器。映射器中的键是读取的行数。但请注意CSV文件,因为单个列/字段可以包含换行符。您可能希望查找类似这样的CSV输入阅读器:

https://github.com/mvallebr/CSVInputFormat/blob/master/src/main/java/org/apache/hadoop/mapreduce/lib/input/CSVNLineInputFormat.java

但是,你必须在你的代码中拆分你的行。