我可以阅读Json和printSchema
,但是运行任何操作都失败了(在作业中没有指定输入路径)。
val sc = new org.apache.spark.SparkContext("local[*]", "shell")
val sqlCtx = new SQLContext(sc)
val input = sqlCtx.jsonFile("../data/tweets/")
input.printSchema
根
| - contributorsIDs:array(nullable = true)
| | - element:string(containsNull = true)
| - createdAt:string(nullable = true)
...
input.first
java.io.IOException: No input paths specified in job
文件夹结构如下:
注意:
local[*]
答案 0 :(得分:5)
好的,通过指定类似
的路径解决了问题val input = sqlCtx.jsonFile("../data/tweets/tweets_*/*")