目前我正在尝试加载xml文件并使用databricks spark_xml解析它。
def loadXMLData(sqlContext: SQLContext) = {
var df : DataFrame = null
var newDf : DataFrame = null
import sqlContext.implicits._
df =sqlContext.read.format("com.databricks.spark.xml").option("rowTag","book").load("books_new.xml")
val newRdd: RDD[Row] = df.rdd
//printing each Row
newRdd.collect().foreach(a=>println(a))
df.printSchema()
df.registerTempTable("book")
sqlContext.sql("""select * from book """).show()
}
在遍历Row时,我有一个列电子邮件,我想找出没有@的id,并在将它们加载到hive之前将它们更新为null。 在注册为临时表之后,我想在hive中加载我添加的数据:
libraryDependencies += "org.apache.spark" %% "spark-hive" % "1.5.0"
但是当我给出时它表示无法解析符号配置单元:
val sqlContext = new org.apache.spark.sql.hive.HiveContext(sc)
如何解决这个问题