何时使用序列文件

时间:2015-01-13 11:09:35

标签: hadoop mapreduce

我理解序列文件包含二进制值。

如果在map reduce中使用完全顺序,你能不能告诉我。

我找到了一个来自我朋友的mapreduce代码,其中他在HDFS中保留了一些MS Outlook电子邮件。他正在创建一个电子邮件搜索应用程序,所以在编写电子邮件索引之前,他首先将它们转换为序列文件。我不确定这是为什么。

1 个答案:

答案 0 :(得分:0)

每次您希望MR作业处理一些实现Writable的自定义可序列化对象时 例如,您的系统中有一些代表用户的对象 这个对象(例如称为UserWritable)必须包含许多字段,例如年龄名称等(可能在一个简单的情况下,它足以使用Text,用户用逗号分隔的字符串表示,但在大多数情况下会有更多来自sytsem ..或maps / sets / lists)的类型的复杂字段 在上述情况下,job.setInputFormat(SequenceFileInputFormat.class);是必需的 希望有所帮助...