可定制的输入格式hadoop

时间:2015-12-03 14:11:29

标签: java hadoop mapreduce

我正在使用Java Hadoop为 MapReduce 编写一个程序。我在 TextInputFormat 时遇到了一些问题,因为它需要 LongWritable 作为输入,但在我的代码中我没有任何问题(我有一个新的课程)。所以我需要一个新类 InputFormat ,它将我的新类的实例作为输入。有什么帮助吗?

2 个答案:

答案 0 :(得分:0)

对于TextInputFormat,框架读取每一行,其中lineoffset为键,行为value。如果是文本数据且每行都是记录,则应使用TextInputFormat,作为mapper的一部分,您需要处理每条记录。

答案 1 :(得分:0)

您不必担心 - TextInputFormat适合您。

TextInputFormat中,您将在映射器的值中将每行数据作为Text对象获取。 LongWritable只是文件中行开头的字节偏移量。使用此LongWritable非常罕见,大多数MR作业都会在映射器中忽略它。您可以使用此输入格式而无需更改数据。