如何从Spark中的序列文件中提取一系列行?

时间:2017-01-19 16:36:27

标签: java hadoop apache-spark rdd sequencefile

假设我有一个非常大的序列文件,但我只想在本地使用前1000行。我怎么能这样做?

目前我的代码看起来像这样

JavaPairRDD<IntWritable,VectorWritable> seqVectors = sc.sequenceFile(inputPath, IntWritable.class, VectorWritable.class);

1 个答案:

答案 0 :(得分:1)

您应该做的是([a-z]|&(?:nbsp|deg|#160);)+ 中的parallelize

array

请参阅简单示例here及以下内容:
enter image description here