Question

从各种线索，博客和一些着名的书中，我可以看到SPARK可以读取“Hive”序列文件。但由MR生成的序列文件的另一个用例是许多小文件的容器，它能读取那种类型的文件吗？我怀疑，但没有看到......

Answer 1

实际上，这是一个无意义的问题。 Hive表是从外部通过这种文件还是由MR生成的文件，没有任何区别。进步和大量阅读而又看不见森林的问题。可能会发生。

对于后代：

val RDD = sc.parallelize(List(("a", 1), ("b", 2), ("c", 3)))
RDD.saveAsSequenceFile("/XYZ/seq-dir")

痛苦：

import org.apache.hadoop.io.Text
import org.apache.hadoop.io.IntWritable
val sequence_data = sc.sequenceFile("/XYZ/seq-dir/*", classOf[Text], classOf[IntWritable]).map{case (x, y) => (x.toString, y.get())}.collect

SPARK阅读SEQUENCE文件

1 个答案: