应用错误收集

在hadoop应用程序中读取和写入CSV文件

时间：2012-06-04 11:47:45

标签： csv hadoop file-io mapreduce

我需要处理自定义csv文件作为输入并将csv文件写回HDFS。我可以直接在地图reduce类中实现这一点吗？

为了处理我的csv文件，我使用的是opencsv库。我看过一些教程，他们使用inputformat和outputformat标志来指定处理用户定义格式的java类。有人可以就如何使用csv文件提出建议吗？

我想坚持使用hadoop提供的功能，否则我自己实现的输入和输出格式可能会使我的处理速度变慢。

1 个答案:

答案 0 :(得分：4)

问题是你是否需要多行csv。
如果您不需要它 - 您可以使用vanilla TextInputFormat和TextOutputFormat，并在mapper中使用opencsv来解析行。对于输出TextOutputFormat也很好如果你需要多行 - 你需要做一些黑客来组装逻辑记录。您可以为它创建自己的输入格式，也可以在mapper中创建。

在iphone应用程序中读取和写入文件
读取和编写csv文件到python时出错
在hadoop应用程序中读取和写入CSV文件
Bufferreader和Bufferedwriter用于读写hdfs文件
在Python中读取和写入CSV文件
使用Python在CSV文件中读取和写入数据
读取和写入CSV文件
读写csv文件
读取和写入csv文件
应用程序ID和读取/写入文件

我写了这段代码，但我无法理解我的错误
我无法从一个代码实例的列表中删除 None 值，但我可以在另一个实例中。为什么它适用于一个细分市场而不适用于另一个细分市场？
是否有可能使 loadstring 不可能等于打印？卢阿
java中的random.expovariate()
Appscript 通过会议在 Google 日历中发送电子邮件和创建活动
为什么我的 Onclick 箭头功能在 React 中不起作用？
在此代码中是否有使用“this”的替代方法？
在 SQL Server 和 PostgreSQL 上查询，我如何从第一个表获得第二个表的可视化
每千个数字得到
更新了城市边界 KML 文件的来源？