Spark流媒体和kafka集成

时间:2017-06-26 08:41:59

标签: python apache-spark apache-kafka spark-streaming spark-streaming-kafka

我正在为python中编程的项目使用kafka和spark streaming。我想将数据从kafka制作人发送到我的流媒体节目。当我使用指定的依赖项执行以下命令时,它运行顺利:

./ spark-submit --packages org.apache.spark:spark-streaming-kafka-0-8_2.11:2.1.0 ./kafkastreaming.py

有没有办法可以指定依赖项并直接运行流代码(即不使用spark-submit或使用spark-submit但不指定依赖项。)

我尝试在spark的conf目录中指定spark-defaults.conf中的依赖项。 指定的依赖项是: 1.org.apache.spark:火花流 - 卡夫卡0-8_2.11:2.1.0 2.org.apache.spark:火花流式卡夫卡-0-8-组件:2.1.1

注意 - 我参考了使用netcat的spark streaming guide https://spark.apache.org/docs/latest/streaming-programming-guide.html 并且它没有使用spark-submit命令工作,因此我想知道我是否可以使用kafka和spark streaming进行相同的操作。

1 个答案:

答案 0 :(得分:0)

将您的其他依赖项提供给spark发行版的" jars" 文件夹。停止并重新开始火花。这样,依赖关系将在运行时解析,而无需在命令行中添加任何其他选项