SPARK阅读SEQUENCE文件

时间:2016-11-11 16:54:00

标签: apache-spark

从各种线索,博客和一些着名的书中,我可以看到SPARK可以读取“Hive”序列文件。但由MR生成的序列文件的另一个用例是许多小文件的容器,它能读取那种类型的文件吗?我怀疑,但没有看到......

1 个答案:

答案 0 :(得分:0)

实际上,这是一个无意义的问题。 Hive表是从外部通过这种文件还是由MR生成的文件,没有任何区别。进步和大量阅读而又看不见森林的问题。可能会发生。

对于后代:

val RDD = sc.parallelize(List(("a", 1), ("b", 2), ("c", 3)))
RDD.saveAsSequenceFile("/XYZ/seq-dir")

痛苦:

import org.apache.hadoop.io.Text
import org.apache.hadoop.io.IntWritable
val sequence_data = sc.sequenceFile("/XYZ/seq-dir/*", classOf[Text], classOf[IntWritable]).map{case (x, y) => (x.toString, y.get())}.collect