将Spark DataFrame转换为对象列表

时间:2017-11-02 21:36:17

标签: scala apache-spark oop dataframe apache-spark-sql

我知道可以使用以下内容将数据帧列转换为列表:

"ISNULL(FINDSTRING("a,b,c,d",e,1))"

让我们说我已经知道了数据帧的架构,相应地我创建了一个案例类,如:

dataFrame.select("ColumnName").rdd.map(r => r(0)).collect()

是否有一种从数据框的数据中获取同义词对象列表的有效方法?

换句话说,我正在尝试创建一个映射器,它将数据帧的每一行转换为我的案例类的对象,然后以我可以有一个列表的方式返回此对象这些对象在操作结束时。这有可能以一种有效的方式吗?

2 个答案:

答案 0 :(得分:6)

使用#!/bin/sh # call me grabname.sh read -p "Name for grab? " grab cp /path/to/temp/grabcache.png /where/you/want/it/$grab.png nautilus /path/to/temp 获取as[Synonym],然后您可以Dataset[Synonym]获取collect

Array[Synonym]

答案 1 :(得分:3)

使用键入的Dataset

df.select("URI", "similarity", "FURI").as[Synonym].collect