Question

我们拥有自己的专有格式，用于在图像中存储多边形和形状。我想用Spark来处理这种格式。是否可以在SparkContext中创建自己的阅读器来读取专有格式并填充RDD？我想创建一个现有RDD的派生类，它将由我的读者在SparkContext中填充。我想用Python做到这一点。任何建议或链接表示赞赏。

Answer 1

您应该能够使用Spark Context简单地读取数据并将其转换为RDD。然后，您可以使用Spark对数据进行操作。

示例：

val sc = new SparkContext(sparkConf)
val result : RDD[MyCustomObject] =
  sc
    .parallelize(Source.fromFile("/tmp/DataFile.csv")
    .getLines()
    .drop(1)
    .map(x => MyCustomObject(x))

这适用于任何格式的数据 - 尽管如果您能够从HDFS，Cassandra等读取数据，数据将通过分布式读取读取并显示为RDD。

如何从RDD派生并创建自己的？

1 个答案: