Question

我想知道当火花消耗来自kafka的数据时如何跳过标题。

我的kafka主题在特定时间包含以下消息：

output.csv

每当我从kafka消费数据时，我都想跳过标题部分。

我的Spark结构化流消费者如下：

name,age,year
ton,33,2018
fon,34,2019

有人可以帮我在使用kafka数据时如何跳过标题部分吗？我是激发结构化流式传输的新手

Answer 1

value列是Kafka记录的值，在您的情况下，它看起来就像是多行字符串（带有换行符，第一行称为标头）。 Spark不知道，因此从Kafka提取记录后，您必须自己解析记录。

顺便说一句，它在Spark SQL中与Kafka数据源相似。将readStream替换为read，然后看看自己。