我看到很多例子使用数组首先创建顶点然后将其并行化以使其成为RDD,但如果我有大量数据,那么我该如何处理呢?我不认为我可以创建一个100万行顶点的数组。
还有另一篇帖子,Spark GraphX - How can I read from a JSON file in Spark and create a graph from the data?,也建议使用数组,如果我错了,请纠正我,但我不认为它会起作用。
提前致谢。
答案 0 :(得分:0)
如果您在文件中存储数据,则可以直接在其上创建rdd:
val rdd : RDD[String] = sparkContext.textFile("/path/to/file")
然后将其转换为VertexRDD或EdgeRDD。