Question

我可以通过bin/spark-shell --packages com.databricks:spark-xml_2.11:0.3.0运行Spark shell来分析xml文件，例如：

import org.apache.spark.sql.SQLContext

val sqlContext = new SQLContext(sc)
val df = sqlContext.read
    .format("com.databricks.spark.xml")
    .option("rowTag", "book")
    .load("books.xml")

但我怎么能运行Zeppelin来做到这一点。 Zeppelin在开始导入com.databricks.spark.xml时是否需要一些参数？现在我得到了：

java.lang.RuntimeException：无法加载数据源的类： com.databricks.spark.xml at scala.sys.package $ .error（package.scala：27）at org.apache.spark.sql.sources.ResolvedDataSource $ .lookupDataSource（ddl.scala：220）在 org.apache.spark.sql.sources.ResolvedDataSource $。适用（ddl.scala：233）在 org.apache.spark.sql.DataFrameReader.load（DataFrameReader.scala：114）在 org.apache.spark.sql.DataFrameReader.load（DataFrameReader.scala：104） $ iwC $$ iwC $$ iwC $$ iwC $$ iwC $$ iwC $$ iwC $$ iwC。（：26）at $ iwC $$ iwC $$ iwC $$ iwC $$ iwC $$ iwC $$ iwC。（：31）at $ iwC $$ iwC $$ iwC $$ iwC $$ iwC $$ iwC。（：33）at at $ iwC $$ iwC $$ iwC $$ iwC $$ iwC。（：35）at $ iwC $$ iwC $$ iwC $$ iwC。（：37）at $ iwC $$ iwC $$ iwC。（：39）at $ iwC $$ iwC。（：41） at $ iwC。（：43）at（：45）at （：49）at。（）at 。（：7）at。（）at $ print（） at sun.reflect.NativeMethodAccessorImpl.invoke0（Native Method）at sun.reflect.NativeMethodAccessorImpl.invoke（NativeMethodAccessorImpl.java:62）在 sun.reflect.DelegatingMethodAccessorImpl.invoke（DelegatingMethodAccessorImpl.java:43）在java.lang.reflect.Method.invoke（Method.java:497）at org.apache.spark.repl.SparkIMain $ ReadEvalPrint.call（SparkIMain.scala：1065）在 org.apache.spark.repl.SparkIMain $ Request.loadAndRun（SparkIMain.scala：1338）在 org.apache.spark.repl.SparkIMain.loadAndRunReq $ 1（SparkIMain.scala：840）在org.apache.spark.repl.SparkIMain.interpret（SparkIMain.scala：871）在org.apache.spark.repl.SparkIMain.interpret（SparkIMain.scala：819）在 org.apache.zeppelin.spark.SparkInterpreter.interpretInput（SparkInterpreter.java:709）在 org.apache.zeppelin.spark.SparkInterpreter.interpret（SparkInterpreter.java:674）在 org.apache.zeppelin.spark.SparkInterpreter.interpret（SparkInterpreter.java:667）在 org.apache.zeppelin.interpreter.ClassloaderInterpreter.interpret（ClassloaderInterpreter.java:57）在 org.apache.zeppelin.interpreter.LazyOpenInterpreter.interpret（LazyOpenInterpreter.java:93）在 org.apache.zeppelin.interpreter.remote.RemoteInterpreterServer $ InterpretJob.jobRun（RemoteInterpreterServer.java:300）在org.apache.zeppelin.scheduler.Job.run（Job.java:169）at org.apache.zeppelin.scheduler.FIFOScheduler $ 1.run（FIFOScheduler.java:134）在 java.util.concurrent.Executors $ RunnableAdapter.call（Executors.java:511）在java.util.concurrent.FutureTask.run（FutureTask.java:266）at java.util.concurrent.ScheduledThreadPoolExecutor中的$ ScheduledFutureTask.access $ 201（ScheduledThreadPoolExecutor.java:180）在 java.util.concurrent.ScheduledThreadPoolExecutor中的$ ScheduledFutureTask.run（ScheduledThreadPoolExecutor.java:293）在 java.util.concurrent.ThreadPoolExecutor.runWorker（ThreadPoolExecutor.java:1142）在 java.util.concurrent.ThreadPoolExecutor中的$ Worker.run（ThreadPoolExecutor.java:617）在java.lang.Thread.run（Thread.java:745）

Answer 1

在Zeppelin中，您需要在创建SparkContext之前调用这些依赖项。

在单独的单元格中添加并运行以下

%dep
z.reset()
z.addRepo("Spark Packages Repo").url("http://dl.bintray.com/spark-packages/maven")
z.load("com.databricks:spark-xml_2.11:0.3.0")

如果这样会从类型中给出错误：＆＃34;您必须在启动SparkContext之前添加依赖关系＆＃34;只需重启解释器或Zeppelin。

如何在Zeppelin上运行Spark来分析xml文件

1 个答案: