Question

假设我有一个非常大的序列文件，但我只想在本地使用前1000行。我怎么能这样做？

目前我的代码看起来像这样

JavaPairRDD<IntWritable,VectorWritable> seqVectors = sc.sequenceFile(inputPath, IntWritable.class, VectorWritable.class);

Answer 1

您应该做的是([a-z]|&(?:nbsp|deg|#160);)+中的parallelize：

array

请参阅简单示例here及以下内容：