我理解序列文件包含二进制值。
如果在map reduce中使用完全顺序,你能不能告诉我。
我找到了一个来自我朋友的mapreduce代码,其中他在HDFS中保留了一些MS Outlook电子邮件。他正在创建一个电子邮件搜索应用程序,所以在编写电子邮件索引之前,他首先将它们转换为序列文件。我不确定这是为什么。
答案 0 :(得分:0)
每次您希望MR作业处理一些实现Writable
的自定义可序列化对象时
例如,您的系统中有一些代表用户的对象
这个对象(例如称为UserWritable)必须包含许多字段,例如年龄名称等(可能在一个简单的情况下,它足以使用Text,用户用逗号分隔的字符串表示,但在大多数情况下会有更多来自sytsem ..或maps / sets / lists)的类型的复杂字段
在上述情况下,job.setInputFormat(SequenceFileInputFormat.class);
是必需的
希望有所帮助...