使用Kafka的数据时如何跳过多行记录中的标题?

时间:2019-01-29 23:00:53

标签: apache-spark apache-spark-sql spark-structured-streaming

我想知道当火花消耗来自kafka的数据时如何跳过标题。

我的kafka主题在特定时间包含以下消息:

output.csv

每当我从kafka消费数据时,我都想跳过标题部分。

我的Spark结构化流消费者如下:

name,age,year
ton,33,2018
fon,34,2019

有人可以帮我在使用kafka数据时如何跳过标题部分吗?我是激发结构化流式传输的新手

1 个答案:

答案 0 :(得分:1)

value列是Kafka记录的值,在您的情况下,它看起来就像是多行字符串(带有换行符,第一行称为标头)。 Spark不知道,因此从Kafka提取记录后,您必须自己解析记录。

顺便说一句,它在Spark SQL中与Kafka数据源相似。将readStream替换为read,然后看看自己。