Spark程序读取XML并使用数据库spark_xml jar

时间:2016-05-31 03:52:20

标签: xml scala apache-spark apache-spark-sql spark-dataframe

目前我正在尝试加载xml文件并使用databricks spark_xml解析它。

def loadXMLData(sqlContext: SQLContext) = {
var df : DataFrame = null
var newDf : DataFrame = null
import sqlContext.implicits._
df =sqlContext.read.format("com.databricks.spark.xml").option("rowTag","book").load("books_new.xml")
val newRdd: RDD[Row] = df.rdd
//printing each Row
newRdd.collect().foreach(a=>println(a))
df.printSchema()
df.registerTempTable("book")
sqlContext.sql("""select * from book """).show()

}

在遍历Row时,我有一个列电子邮件,我想找出没有@的id,并在将它们加载到hive之前将它们更新为null。 在注册为临时表之后,我想在hive中加载我添加的数据:

libraryDependencies += "org.apache.spark" %% "spark-hive" % "1.5.0"

但是当我给出时它表示无法解析符号配置单元:

val sqlContext = new org.apache.spark.sql.hive.HiveContext(sc)

如何解决这个问题

0 个答案:

没有答案