标签: apache-spark parquet spark-structured-streaming orc
我们正在运行带有Spark 2.4.2的结构化流处理程序,该过程从kafka读取数据,并将数据原样写入s3文件。我们还将蜂巢元存储用于火花目录管理。 我们注意到,与写入实木复合地板文件相比,写入ORC文件时,流使用更多的内存。另一件事是,ORC与镶木地板相比,流延迟也要高得多。谁能解释其中的区别?我们是否缺少任何配置以使ORC在Spark结构化流中更好地工作?