Question

我想使用与Kafka集成的spark结构化流，其方式如下所述： https://spark.apache.org/docs/latest/structured-streaming-kafka-integration.html

但是我遇到了以下问题：

原因：org.apache.spark.sql.AnalysisException：无法找到数据源：kafka。请按照“结构化流+ Kafka集成指南”的部署部分部署应用程序。

尽管我已经在生成的胖子jar中添加了kafka-sql依赖项：

<dependency>
<groupId>org.apache.spark</groupId>
<artifactId>spark-sql-kafka-0-10_2.11</artifactId>
<version>2.4.3</version>
<scope>compile</scope>
</dependency>

当我使用命令提交

spark-submit  --master spark://spark-master:7077  --class myClass --deploy-mode client --packages org.apache.spark:spark-sql-kafka-0-10_2.11:2.4.3 my-fat-jar-with-dependencies.jar

问题消失了。

由于packages选项需要从可以访问互联网的环境中下载库文件，而我却没有它，因此，请问我该怎么做才能在胖子罐或其他解决方案中添加kafka依赖项。谢谢。

Spark结构化流式Kafka集成库放在胖罐中

0 个答案: