我正在尝试从kafka读取流,其中的值是一串用逗号分隔的值(表示数据集中的列) 目的是读取两个这样的流并将其加入。
如果我正在读取文件,则可以通过为输入流分配分隔符和模式来实现此目的。这是我的能力:
val stearm_L: DataFrame = spark.readStream
.option("sep", ";")
.schema(schema_L)
.csv("inputFileSteam_L")
如果我是从kafka而不是文件中读取文件,该怎么做?
答案 0 :(得分:0)
您基本上用csv("filename")
代替了format("kafka")
。
Spark Streaming部分下有一个页面,有关Kafka集成,以获取更多详细信息。
关于如何解析CSV,请参见spark streaming: read CSV string from kafka, write to parquet