Kafka流加载到数据帧显示数据天蓝色数据砖

时间:2020-10-27 21:52:04

标签: azure apache-kafka-streams databricks azure-databricks pyspark-dataframes

我们将内部Kafka流数据传输到Azure数据砖设置;我们使用以下查询连接到本地主机

df = spark \
  .readStream \
  .format("kafka") \
  .option("kafka.bootstrap.servers", "host1:10.10.10.120:9092") \
  .option("subscribe", "SIP.SIP.MENT") \
  .option("minPartitions", "10")  \
  .option("startingOffsets", "earliest") \
  .load()

然后接下来我们用 显示(df)

我们永远都不会显示任何结果,使用者在服务器上的运行状况很好。

完全错误

    [Consumer clientId=consumer-spark-kafka-source-6c634c0d-01de-4840-a7b9-414326972173-2063739220-driver-0-1, groupId=spark-kafka-source-6c634c0d-01de-4840-a7b9-414326972173-2063739220-driver-0] Discovered group coordinator xyz.xyz.com:9092 (id: 2147483647 rack: null)
20/10/28 01:26:20 WARN NetworkClient: [Consumer clientId=consumer-spark-kafka-source-6c634c0d-01de-4840-a7b9-414326972173-2063739220-driver-0-1, groupId=spark-kafka-source-6c634c0d-01de-4840-a7b9-414326972173-2063739220-driver-0] Error connecting to node xyz.xyz.com:9092 (id: 2147483647 rack: null)
java.net.UnknownHostException: xyz.xyz.com: Name or service not known
    at java.net.Inet6AddressImpl.lookupAllHostAddr(Native Method)
    at java.net.InetAddress$2.lookupAllHostAddr(InetAddress.java:929)

2 个答案:

答案 0 :(得分:0)

删除host1部分:

.option("kafka.bootstrap.servers", "10.10.10.120:9092")

答案 1 :(得分:0)

请确保您使用的kafka.bootstrap.servers语法正确。

enter image description here

语法: ("kafka.bootstrap.servers", "Host_IP_address:Port")

相应地修改代码。

df = spark \
  .readStream \
  .format("kafka") \
  .option("kafka.bootstrap.servers", "10.10.10.120:9092") \
  .option("subscribe", "SIP.SIP.MENT") \
  .option("minPartitions", "10")  \
  .option("startingOffsets", "earliest") \
  .load()