我刚刚复制了spark streaming wodcount python代码,并使用spark-submit在Spark集群中运行wordcount python代码,但它显示以下错误:
py4j.protocol.Py4JJavaError: An error occurred while calling o23.loadClass.
: java.lang.ClassNotFoundException: org.apache.spark.streaming.kafka.KafkaUtilsPythonHelper
at java.net.URLClassLoader$1.run(URLClassLoader.java:366)
at java.net.URLClassLoader$1.run(URLClassLoader.java:355)
at java.security.AccessController.doPrivileged(Native Method)
at java.net.URLClassLoader.findClass(URLClassLoader.java:354)
我确实构建了jar spark-streaming-kafka-assembly_2.10-1.4.0-SNAPSHOT.jar。我使用以下脚本提交: bin / spark-submit /data/spark-1.3.0-bin-hadoop2.4/wordcount.py --master spark://192.168.100.6:7077 --jars /data/spark-1.3.0-bin-hadoop2 0.4 /卡夫卡组件/目标/火花流-卡夫卡组装_ *。罐子。
提前致谢!
答案 0 :(得分:2)
实际上我刚刚意识到你已经在剧本之后加入了--jars。 除非在脚本名称之前指定了jar文件,否则不会包含jar文件。因此请使用spark-submit --jars spark-streaming-kafka-assembly_2.10-1.3.1.jar Script.py而不是spark-submit Script.py --jars spark-streaming-kafka-assembly_2.10-1.3.1.jar。
答案 1 :(得分:1)
我必须在我的命令中引用一些罐子才能使它工作,也许尝试显式引用罐子,它可能无法从你构建的罐子中正确地拾取它。
/opt/spark/spark-1.3.1-bin-hadoop2.6/bin/spark-submit --jars /root/spark-streaming-kafka_2.10-1.3.1.jar,/usr/hdp/2.2.4.2-2/kafka/libs/kafka_2.10-0.8.1.2.2.4.2-2.jar,/usr/hdp/2.2.4.2-2/kafka/libs/zkclient-0.3.jar,/root/.m2/repository/com/yammer/metrics/metrics-core/2.2.0/metrics-core-2.2.0.jar kafka_wordcount.py kafkaAddress:2181 topicName
实际上它似乎没有拿起这个罐子:kafka_2.10-0.8.1.2.2.4.2-2.jar