从各种线索,博客和一些着名的书中,我可以看到SPARK可以读取“Hive”序列文件。但由MR生成的序列文件的另一个用例是许多小文件的容器,它能读取那种类型的文件吗?我怀疑,但没有看到......
答案 0 :(得分:0)
实际上,这是一个无意义的问题。 Hive表是从外部通过这种文件还是由MR生成的文件,没有任何区别。进步和大量阅读而又看不见森林的问题。可能会发生。
对于后代:
val RDD = sc.parallelize(List(("a", 1), ("b", 2), ("c", 3)))
RDD.saveAsSequenceFile("/XYZ/seq-dir")
痛苦:
import org.apache.hadoop.io.Text
import org.apache.hadoop.io.IntWritable
val sequence_data = sc.sequenceFile("/XYZ/seq-dir/*", classOf[Text], classOf[IntWritable]).map{case (x, y) => (x.toString, y.get())}.collect