读取csv文件以创建数据帧

时间:2015-06-16 18:21:30

标签: scala csv apache-spark dataframe

我正在尝试读取csv文件来创建数据框(https://databricks.com/blog/2015/02/17/introducing-dataframes-in-spark-for-large-scale-data-science.html

使用:

spark-1.3.1-bin-hadoop2.6
spark-csv_2.11-1.1.0

代码:

import org.apache.spark.sql.SQLContext
object test {
 def main(args: Array[String]) {
       val conf = new SparkConf().setAppName("test")
       val sc = new SparkContext(conf)
       val sqlContext = new SQLContext(sc)
       val df = sqlContext.csvFile("filename.csv")
       ...
 }
}

错误:

value csvFile is not a member of org.apache.spark.sql.SQLContext

我试图按照这里的建议去做:Spark - load CSV file as DataFrame?

但是sqlContext似乎没有认识到CsvContext类的csvFile方法。

任何建议都将不胜感激!

1 个答案:

答案 0 :(得分:0)

我也遇到了一些CSV问题(没有Spark-CSV),但是你可以看一下这些问题并检查它们是否正常。

  1. 使用sbt程序集使用spark-csv库构建Spark shell。
  2. 将spark-csv依赖项添加到maven项目的POM.XML。
  3. 使用Dataframe API的加载/保存方法。
  4. SPARK-CSV GITHUB

    参考spark-csv github readme.md页面,你将启动并运行:)