读取csv文件作为spark中的数据帧

时间:2016-04-12 21:44:52

标签: apache-spark

我是新来的火花,我有一个超过1500列的csv文件。我喜欢将它作为数据帧加载到spark中。我不知道该怎么做。 感谢

1 个答案:

答案 0 :(得分:1)

使用此项目https://github.com/databricks/spark-csv

首页有一个例子:

import org.apache.spark.sql.SQLContext

val sqlContext = new SQLContext(sc)
val df = sqlContext.read
    .format("com.databricks.spark.csv")
    .option("header", "true") // Use first line of all files as header
    .option("inferSchema", "true") // Automatically infer data types
    .load("cars.csv")