使用spark scala读取每行的第二个单词

时间:2019-02-19 05:31:24

标签: scala apache-spark

我想阅读/打印每行的第二个单词。

input->>人们并不像他们看起来的那样美丽,
当他们走路或说话时。
他们只有自己喜欢的美丽,
就像他们分享一样。

输出->> 是 他们 是 他们

1 个答案:

答案 0 :(得分:0)

请检查以下内容:

    val myDF=spark.read.text("<path>")
    import org.apache.spark.sql._
    import org.apache.spark.sql.types._
    val rdd=myDF.rdd.map(_.mkString("")).map(f=> Row(f.split(" ")(1)))
    val schema:StructType  = (new StructType).add("values",StringType )
    val result=spark.createDataFrame(rdd, schema)
    result.show()