如何从RDD派生并创建自己的?

时间:2016-02-11 15:36:02

标签: python apache-spark

我们拥有自己的专有格式,用于在图像中存储多边形和形状。我想用Spark来处理这种格式。是否可以在SparkContext中创建自己的阅读器来读取专有格式并填充RDD?我想创建一个现有RDD的派生类,它将由我的读者在SparkContext中填充。我想用Python做到这一点。任何建议或链接表示赞赏。

1 个答案:

答案 0 :(得分:-1)

您应该能够使用Spark Context简单地读取数据并将其转换为RDD。然后,您可以使用Spark对数据进行操作。

示例:

val sc = new SparkContext(sparkConf)
val result : RDD[MyCustomObject] =
  sc
    .parallelize(Source.fromFile("/tmp/DataFile.csv")
    .getLines()
    .drop(1)
    .map(x => MyCustomObject(x))

这适用于任何格式的数据 - 尽管如果您能够从HDFS,Cassandra等读取数据,数据将通过分布式读取读取并显示为RDD。