我正在为python中编程的项目使用kafka和spark streaming。我想将数据从kafka制作人发送到我的流媒体节目。当我使用指定的依赖项执行以下命令时,它运行顺利:
./ spark-submit --packages org.apache.spark:spark-streaming-kafka-0-8_2.11:2.1.0 ./kafkastreaming.py
有没有办法可以指定依赖项并直接运行流代码(即不使用spark-submit或使用spark-submit但不指定依赖项。)
我尝试在spark的conf目录中指定spark-defaults.conf中的依赖项。 指定的依赖项是: 1.org.apache.spark:火花流 - 卡夫卡0-8_2.11:2.1.0 2.org.apache.spark:火花流式卡夫卡-0-8-组件:2.1.1
注意 - 我参考了使用netcat的spark streaming guide https://spark.apache.org/docs/latest/streaming-programming-guide.html 并且它没有使用spark-submit命令工作,因此我想知道我是否可以使用kafka和spark streaming进行相同的操作。
答案 0 :(得分:0)
将您的其他依赖项提供给spark发行版的" jars" 文件夹。停止并重新开始火花。这样,依赖关系将在运行时解析,而无需在命令行中添加任何其他选项