我们拥有自己的专有格式,用于在图像中存储多边形和形状。我想用Spark来处理这种格式。是否可以在SparkContext中创建自己的阅读器来读取专有格式并填充RDD?我想创建一个现有RDD的派生类,它将由我的读者在SparkContext中填充。我想用Python做到这一点。任何建议或链接表示赞赏。
答案 0 :(得分:-1)
您应该能够使用Spark Context简单地读取数据并将其转换为RDD。然后,您可以使用Spark对数据进行操作。
示例:
val sc = new SparkContext(sparkConf)
val result : RDD[MyCustomObject] =
sc
.parallelize(Source.fromFile("/tmp/DataFile.csv")
.getLines()
.drop(1)
.map(x => MyCustomObject(x))
这适用于任何格式的数据 - 尽管如果您能够从HDFS,Cassandra等读取数据,数据将通过分布式读取读取并显示为RDD。