我正在尝试将RDD
列表转换为Spark中的Dataframe
。
RDD:
['ABC', 'AA', 'SSS', 'color-0-value', 'AAAAA_VVVV0-value_1', '1', 'WARNING', 'No test data for negative population! Re-using negative population for non-backtest.']
['ABC', 'SS', 'AA', 'color-0-SS', 'GG0-value_1', '1', 'Temp', 'After, date differences are outside tolerance (10 days) 95.1% of the time']
这是RDD
多个列表的内容。
如何将其转换为数据框?目前,它正在将其转换为单列,但我需要多列。
Dataframe
+--------------+
| _1|
+--------------+
|['ABC', 'AA...|
|['ABC', 'SS...|
答案 0 :(得分:5)
只需使用Row.fromSeq
:
import org.apache.spark.sql.Row
rdd.map(x => Row.fromSeq(x)).toDF