我有一个我需要处理的文件,其中包含包含可变行数的记录。
例如,我有以下文件: -
100,ABC,123
101,ABC,123
120,ABC,123
100,ABC,123
111,ABC, 123
123,ABC,123
120,ABC,123个
的 100,ABC,123
111,ABC,123
120,ABC,123 < /强>
100,ABC,123
114,ABC,123
120,ABC,123个
以上粗体和非粗体显示每条记录。 因此,从上面可以看到的每条记录都以100开头,以120结尾。但每条记录包含可变数量的行,如3或4等。现在我知道这可以使用自定义输入格式和自定义记录阅读器来解决我可以在哪里重用linerecordreader来处理变量行。但是使用这种方法的问题是,如果记录(从100行开始并以120结尾)本身太大而不能在地图中包含单个记录。所以在这种情况下,这将失败。所以我需要一些更好的解决方案,通过它可以使用默认的inputformat和recordreader来解决,并在mapper或reducer等中做一些事情。如果问题可以通过某种方式解决,也欢迎多个工作。