我想知道当火花消耗来自kafka的数据时如何跳过标题。
我的kafka主题在特定时间包含以下消息:
output.csv
每当我从kafka消费数据时,我都想跳过标题部分。
我的Spark结构化流消费者如下:
name,age,year
ton,33,2018
fon,34,2019
有人可以帮我在使用kafka数据时如何跳过标题部分吗?我是激发结构化流式传输的新手
答案 0 :(得分:1)
value
列是Kafka记录的值,在您的情况下,它看起来就像是多行字符串(带有换行符,第一行称为标头)。 Spark不知道,因此从Kafka提取记录后,您必须自己解析记录。
顺便说一句,它在Spark SQL中与Kafka数据源相似。将readStream
替换为read
,然后看看自己。