无法使用Kafka 1.0和Spark 2.3.0创建Spark Streaming(Dstream)应用程序

时间:2018-07-03 08:44:44

标签: pyspark apache-kafka spark-streaming

我正在使用以下代码在环境Kafka 1.0和spark 2.3.0上执行pyspark流应用程序

spark-submit-打包org.apache.spark:spark-streaming-kafka-0-10_2.11:2.3.1,org.apache.spark:spark-streaming-kafka-0-10-assembly_2.11 :2.3.1 SparkStreamingwithKafkacreateStream.py

我将得到以下输出:

在类路径中找不到Spark Streaming的Kafka库。请尝试以下方法之一。

  1. 将Kafka库及其依赖项包含在  spark-submit命令为

    $ bin / spark-submit --packages org.apache.spark:spark-streaming-kafka-0-8:2.3.0 ...

  2. 从Maven Central http://search.maven.org/下载工件的JAR,  组ID = org.apache.spark,工件ID = spark-streaming-kafka-0-8-assembly,版本= 2.3.0。  然后,将jar包含在spark-submit命令中,

    $ bin / spark-submit --jars ...

如果我使用0-8-assembly而不是0-10-assembly,我将得到以下错误提示。


18/07/03 08:31:27错误TaskSetManager:阶段547.0中的任务0失败1次;放弃工作 18/07/03 08:31:27错误ReceiverTracker:接收器已停止。尝试重新启动它。 org.apache.spark.SparkException:由于阶段失败而导致作业中止:阶段547.0中的任务0失败1次,最近一次失败:阶段547.0中的任务0.0丢失(TID 547,本地主机,执行程序驱动程序):java.lang.NoClassDefFoundError: scala / collection / GenTraversableOnce $ class


请帮忙。

预先感谢

0 个答案:

没有答案