应用错误收集

hadoop mapreduce如何从CSV文件中获取数据？

时间：2015-02-26 09:36:51

标签： csv hadoop input split mapreduce

我想实现hadoop mapreduce，我使用csv文件进行输入。所以，我想问一下，有没有任何方法可以使用hadoop来获取csv文件的值，或者我们只是用Java Split String函数来做？

全部谢谢.....

1 个答案:

答案 0 :(得分：3)

默认情况下，Hadoop使用文本输入阅读器，从输入文件中逐行提供映射器。映射器中的键是读取的行数。但请注意CSV文件，因为单个列/字段可以包含换行符。您可能希望查找类似这样的CSV输入阅读器：

https://github.com/mvallebr/CSVInputFormat/blob/master/src/main/java/org/apache/hadoop/mapreduce/lib/input/CSVNLineInputFormat.java

但是，你必须在你的代码中拆分你的行。