标签: csv hadoop input split mapreduce
我想实现hadoop mapreduce,我使用csv文件进行输入。所以,我想问一下,有没有任何方法可以使用hadoop来获取csv文件的值,或者我们只是用Java Split String函数来做?
全部谢谢.....
答案 0 :(得分:3)
默认情况下,Hadoop使用文本输入阅读器,从输入文件中逐行提供映射器。映射器中的键是读取的行数。但请注意CSV文件,因为单个列/字段可以包含换行符。您可能希望查找类似这样的CSV输入阅读器:
https://github.com/mvallebr/CSVInputFormat/blob/master/src/main/java/org/apache/hadoop/mapreduce/lib/input/CSVNLineInputFormat.java
但是,你必须在你的代码中拆分你的行。