使用Scala api到Spark的EdgeRDD(GraphX)的数据帧

时间:2015-06-30 02:00:32

标签: scala apache-spark spark-graphx

在Scala代码中没有硬编码类型,是否有一种从Spark DataFrame转到EdgeRDD的好方法?我见过的示例用例类来定义EdgeRDD的类型。

我们假设我们的Spark DataFrameStructField ("dstID", LongType, false)("srcID", LongType, false)以及0到22之间的StructField(我们正在限制这一点,以便我们可以使用TupleN来表示它们)。是否有一种干净的方法来通过抓取EdgeRdd[TupleN]中的类型来定义DataFrame?作为动机,请考虑我们正在加载包含类型信息的Parquet文件。

我对Spark和Scala很新,所以我意识到这个问题可能是错误的。在这种情况下,我很欣赏学习“正确”思考这个问题的方法。

1 个答案:

答案 0 :(得分:0)

实现这一目标的最简单方法可能是映射Dataframe中的Row对象(使用map)并以此方式返回。