标签: apache-spark pyspark spark-streaming databricks
我有一个存储在Databricks中的表,随着将行添加到该表中,我需要转换此数据,然后将转换后的数据发布到API。从我阅读的内容来看,使用Spark流处理似乎最有意义,但是我在为如何编写foreachBatch可以调用的函数以将每个微批处理的数据帧打包到其中而编写函数JSON,因此可以将其发送到此API。任何指针都表示赞赏。
foreachBatch
我还假设一个简单的df.toJSON()将负责JSON转换,但不确定从何处去。
df.toJSON()