标签: java hadoop apache-spark rdd sequencefile
假设我有一个非常大的序列文件,但我只想在本地使用前1000行。我怎么能这样做?
目前我的代码看起来像这样
JavaPairRDD<IntWritable,VectorWritable> seqVectors = sc.sequenceFile(inputPath, IntWritable.class, VectorWritable.class);
答案 0 :(得分:1)
您应该做的是([a-z]|&(?:nbsp|deg|#160);)+ 中的parallelize:
([a-z]|&(?:nbsp|deg|#160);)+
parallelize
array
请参阅简单示例here及以下内容: