IntelliJ IDEA以本地模式运行spark代码,无法找到数据源

时间:2016-04-15 08:51:23

标签: file intellij-idea apache-spark local

当我使用本地模式在IntelliJ IDEA中运行LogisticRegression的火花示例时,无论相对路径或绝对路径如何,都无法找到本地文件路径。请帮帮忙,谢谢。

这是env-int代码:

val conf = new SparkConf().setAppName("Titanic").setMaster("local")
val sc = new SparkContext(conf)
val sqlContext = new SQLContext(sc)

比加载函数:

def load(path: String, sqlContext: SQLContext, featuresArr: String*): DataFrame = {
var data = sqlContext.read.format("com.databricks.spark.csv")
  .option("header", "true")
  .option("inferSchema", "true")
  .load(path)
  .toDF(featuresArr: _*)
return data}

我这样调用加载函数:

var train_data = load("file://D:/spark-works/input/train.csv",
  sqlContext,
  "PassengerId", "Survived", "Pclass", "Name", "Sex", "Age", "SibSp", "Parch", "Ticket", "Fare", "Cabin", "Embarked").cache()

路径参数我也尝试过:"输入/ train.csv"。但从不工作。

1 个答案:

答案 0 :(得分:0)

它有点旧,但在处理类似的东西时看到了问题。如果你还没有找到它。

var train_data = load("file://D:/spark-works/input/train.csv",

应该是

var train_data = load("file:///D:/spark-works/input/train.csv",

技巧是///正斜杠。

希望这会有所帮助。