我想加载一个包含分隔符的文本文件" |"进入Spark中的Dataframe。 一种方法是创建RDD并使用toDF来创建Dataframe。但是我想知道我是否可以直接创建DF。 截至目前,我正在使用以下命令
val productsDF = sqlContext.read.text("/user/danishdshadab786/paper2/products/")
答案 0 :(得分:3)
val df = spark.read.format("csv")
.option("delimiter", "|")
.load("/user/danishdshadab786/paper2/products/")
val df = sqlContext.read
.format("com.databricks.spark.csv")
.option("delimiter", "|")
.load("/user/danishdshadab786/paper2/products/")
您可以添加更多选项,例如option("header", "true")
,以便在同一语句中读取标题。
答案 1 :(得分:0)
您可以在“读取”选项中指定分隔符:
spark.read
.option("delimiter", "|")
.csv("/user/danishdshadab786/paper2/products/")