我是Spark新手,我想将CSV文件读取到Dataframe。
Spark 1.3.0 / Scala 2.3.0
这是我到目前为止所做的:
# Start Scala with CSV Package Module
spark-shell --packages com.databricks:spark-csv_2.10:1.3.0
# Import Spark Classes
import org.apache.spark.SparkContext
import org.apache.spark.SparkConf
import org.apache.spark.sql.SQLContext
import sqlCtx ._
# Create SparkConf
val conf = new SparkConf().setAppName("local").setMaster("master")
val sc = new SparkContext(conf)
# Create SQLContext
val sqlCtx = new SQLContext(sc)
# Create SparkSession and use it for all purposes:
val session = SparkSession.builder().appName("local").master("master").getOrCreate()
# Read CSV-File and turn it into Dataframe.
val df_fc = sqlContext.read.format("com.databricks.spark.csv").option("header", "true").load("/home/Desktop/test.csv")
然而,在SparkSession.builder()
,它会出现以下错误:
如何解决此错误?
答案 0 :(得分:0)
SparkSession在spark 2中可用。无需在spark版本2中创建sparkcontext。sparksession本身提供了通往所有对象的网关。
在使用1.x版本时尝试以下操作:
val df_fc = sqlCtx.read.format("com.databricks.spark.csv").option("header", "true").load("/home/Desktop/test.csv")