我一直在关注Apache Spark 2.0并尝试使用Spark SQL来处理文本文件中的一些数据。数据结构如下
1
鲍勃
伦敦
2014年
2
罗伯特
巴黎
2016年
3
山姆
罗马
2011年
我如何在数据模式上运行SparkSQL查询。
我也意识到spark提供了各种读取数据源的选项。
spark.read。
CSV,JDBC,负载,选项,镶木地板,桌子,TEXTFILE
格式,json,选项,orc,架构,文本
可以使用其中任何一个吗?
答案 0 :(得分:0)
这解决了我的任务
spark.sparkContext.hadoopConfiguration.set("textinputformat.record.delimiter","\n\n")
spark.sparkContext.textFile("File.txt")