应用错误收集

可定制的输入格式hadoop

时间：2015-12-03 14:11:29

标签： java hadoop mapreduce

我正在使用Java Hadoop为 MapReduce 编写一个程序。我在 TextInputFormat 时遇到了一些问题，因为它需要 LongWritable 作为输入，但在我的代码中我没有任何问题（我有一个新的课程）。所以我需要一个新类 InputFormat ，它将我的新类的实例作为输入。有什么帮助吗？

2 个答案:

答案 0 :(得分：0)

对于TextInputFormat，框架读取每一行，其中lineoffset为键，行为value。如果是文本数据且每行都是记录，则应使用TextInputFormat，作为mapper的一部分，您需要处理每条记录。

答案 1 :(得分：0)

您不必担心 - TextInputFormat适合您。

在TextInputFormat中，您将在映射器的值中将每行数据作为Text对象获取。 LongWritable只是文件中行开头的字节偏移量。使用此LongWritable非常罕见，大多数MR作业都会在映射器中忽略它。您可以使用此输入格式而无需更改数据。