我想使用与Kafka集成的spark结构化流,其方式如下所述: https://spark.apache.org/docs/latest/structured-streaming-kafka-integration.html
但是我遇到了以下问题:
原因:org.apache.spark.sql.AnalysisException:无法找到数据源:kafka。请按照“结构化流+ Kafka集成指南”的部署部分部署应用程序。
尽管我已经在生成的胖子jar中添加了kafka-sql依赖项:
<dependency>
<groupId>org.apache.spark</groupId>
<artifactId>spark-sql-kafka-0-10_2.11</artifactId>
<version>2.4.3</version>
<scope>compile</scope>
</dependency>
当我使用命令提交
spark-submit --master spark://spark-master:7077 --class myClass --deploy-mode client --packages org.apache.spark:spark-sql-kafka-0-10_2.11:2.4.3 my-fat-jar-with-dependencies.jar
问题消失了。
由于packages选项需要从可以访问互联网的环境中下载库文件,而我却没有它,因此,请问我该怎么做才能在胖子罐或其他解决方案中添加kafka依赖项。 谢谢。