找不到数据源:kafka

时间:2019-05-10 12:36:32

标签: python-3.x apache-spark pyspark apache-kafka spark-streaming

我正在阅读https://nycdatascience.com/blog/student-works/yelp-recommender-part-2/这篇文章,并基本上按照他们显示的所有内容进行操作。但是,在我运行

后,阅读了这篇文章Spark 2.1 Structured Streaming - Using Kakfa as source with Python (pyspark)之后
SPARK_HOME/bin/spark-submit read_stream_spark.py --master local[4] --jars spark-sql-kafka-0.10_2.11-2.1.0.jar

我仍然收到错误消息“无法找到数据源:kafka”。

我也仔细阅读了。 https://spark.apache.org/docs/latest/structured-streaming-kafka-integration.html。官方文档要求两个主机和两个端口,而我只使用一个。我是否应该指定除云服务器和kafka端口以外的其他主机和端口?谢谢。

请让我知道我在想什么。还是我不应该独自运行脚本?

0 个答案:

没有答案