使用Scala在使用Spark从RDD转换为DataFrame时在Txt文件中拆分数据的问题

时间:2016-12-18 23:38:05

标签: scala apache-spark spark-dataframe

我从文本文件中读取数据作为RDD并转换为DataFrame,但我没有得到所需的输出。

代码 -

val myFile = sc.textFile("car.txt")
val df = myFile.map(_.split(" ")).map(line => Text(line(0))).toDF()
df.show()

其中Text是案例类

案例类 -

case class Text(field: String)

car.txt文件中的数据 -

hyundai honda
honda maruti
maruti honda

执行时的输出 -

+-------+
|  field|
+-------+
|hyundai|
|  honda|
| maruti|
+-------+

为什么我没有从DataFrame中的文本文件中获取所有数据?

1 个答案:

答案 0 :(得分:2)

这是因为你CPATH在空格上的数据,然后只输出那个(第一个单词)的第一个元素 - > split

如果您只想要这些行,那么您可以删除line(0),然后只使用.map(_.split(" "))(无line