应用错误收集

目前我正在尝试加载xml文件并使用databricks spark_xml解析它。

def loadXMLData(sqlContext: SQLContext) = {
var df : DataFrame = null
var newDf : DataFrame = null
import sqlContext.implicits._
df =sqlContext.read.format("com.databricks.spark.xml").option("rowTag","book").load("books_new.xml")
val newRdd: RDD[Row] = df.rdd
//printing each Row
newRdd.collect().foreach(a=>println(a))
df.printSchema()
df.registerTempTable("book")
sqlContext.sql("""select * from book """).show()

}

在遍历Row时，我有一个列电子邮件，我想找出没有@的id，并在将它们加载到hive之前将它们更新为null。在注册为临时表之后，我想在hive中加载我添加的数据：

libraryDependencies += "org.apache.spark" %% "spark-hive" % "1.5.0"

但是当我给出时它表示无法解析符号配置单元：

val sqlContext = new org.apache.spark.sql.hive.HiveContext(sc)

如何解决这个问题

Spark程序读取XML并使用数据库spark_xml jar

0 个答案: