尝试使用带分隔符的文件创建数据框' |'

时间:2018-03-02 08:49:20

标签: scala apache-spark dataframe

我想加载一个包含分隔符的文本文件" |"进入Spark中的Dataframe。 一种方法是创建RDD并使用toDF来创建Dataframe。但是我想知道我是否可以直接创建DF。 截至目前,我正在使用以下命令

val productsDF = sqlContext.read.text("/user/danishdshadab786/paper2/products/")

2 个答案:

答案 0 :(得分:3)

对于Spark 2.x

val df = spark.read.format("csv")
      .option("delimiter", "|")
      .load("/user/danishdshadab786/paper2/products/")

对于Spark< 2.0

val df = sqlContext.read
      .format("com.databricks.spark.csv")
      .option("delimiter", "|")
      .load("/user/danishdshadab786/paper2/products/")

您可以添加更多选项,例如option("header", "true"),以便在同一语句中读取标题。

答案 1 :(得分:0)

您可以在“读取”选项中指定分隔符:

spark.read
.option("delimiter", "|")
.csv("/user/danishdshadab786/paper2/products/")