我可以在Spark中创建序列文件吗?

时间:2017-01-30 11:47:17

标签: hadoop apache-spark mapreduce apache-pig sequencefile

目前我们在pig中有一个实现来从记录生成序列文件,其中记录的某些属性被视为序列文件的键,并且与该键对应的所有记录都存储在一个序列文件中。当我们转向火花时,我想知道如何在火花中做到这一点?

1 个答案:

答案 0 :(得分:0)

saveAsSequnceFile将数据保存为序列文件。

val a=sc.parallelize(List(1,2,3,4,5)).map(x=>(x,x*10)).saveAsSequenceFile("/saw1")

$ hadoop fs -cat /sqes/part-00000
SEQ org.apache.hadoop.io.IntWritable org.apache.hadoop.io.IntWritableZ      tTrh7��g�,��
2[cloudera@quickstart ~]$ 

读取序列文件使用sc.sequenceFile

 val sw=sc.sequenceFile("/saw1/part-00000", classOf[IntWritable],classOf[IntWritable]).collect