Question

我看到很多例子使用数组首先创建顶点然后将其并行化以使其成为RDD，但如果我有大量数据，那么我该如何处理呢？我不认为我可以创建一个100万行顶点的数组。

还有另一篇帖子，Spark GraphX - How can I read from a JSON file in Spark and create a graph from the data?，也建议使用数组，如果我错了，请纠正我，但我不认为它会起作用。

提前致谢。

Answer 1

如果您在文件中存储数据，则可以直接在其上创建rdd：

val rdd : RDD[String] = sparkContext.textFile("/path/to/file")

然后将其转换为VertexRDD或EdgeRDD。