我正在使用以下代码在环境Kafka 1.0和spark 2.3.0上执行pyspark流应用程序
spark-submit-打包org.apache.spark:spark-streaming-kafka-0-10_2.11:2.3.1,org.apache.spark:spark-streaming-kafka-0-10-assembly_2.11 :2.3.1 SparkStreamingwithKafkacreateStream.py
我将得到以下输出:
在类路径中找不到Spark Streaming的Kafka库。请尝试以下方法之一。
将Kafka库及其依赖项包含在 spark-submit命令为
$ bin / spark-submit --packages org.apache.spark:spark-streaming-kafka-0-8:2.3.0 ...
从Maven Central http://search.maven.org/下载工件的JAR, 组ID = org.apache.spark,工件ID = spark-streaming-kafka-0-8-assembly,版本= 2.3.0。 然后,将jar包含在spark-submit命令中,
$ bin / spark-submit --jars ...
如果我使用0-8-assembly而不是0-10-assembly,我将得到以下错误提示。
18/07/03 08:31:27错误TaskSetManager:阶段547.0中的任务0失败1次;放弃工作 18/07/03 08:31:27错误ReceiverTracker:接收器已停止。尝试重新启动它。 org.apache.spark.SparkException:由于阶段失败而导致作业中止:阶段547.0中的任务0失败1次,最近一次失败:阶段547.0中的任务0.0丢失(TID 547,本地主机,执行程序驱动程序):java.lang.NoClassDefFoundError: scala / collection / GenTraversableOnce $ class
请帮忙。
预先感谢