应用错误收集

Spark结构化流接收器

时间：2019-07-08 08:15:22

标签： apache-spark parquet spark-structured-streaming orc

我们正在运行带有Spark 2.4.2的结构化流处理程序，该过程从kafka读取数据，并将数据原样写入s3文件。我们还将蜂巢元存储用于火花目录管理。我们注意到，与写入实木复合地板文件相比，写入ORC文件时，流使用更多的内存。另一件事是，ORC与镶木地板相比，流延迟也要高得多。谁能解释其中的区别？我们是否缺少任何配置以使ORC在Spark结构化流中更好地工作？

0 个答案:

没有答案

带水槽的结构化流媒体
Spark结构化流媒体和过滤器
Spark在水槽中构建流式一致性
Spark结构化流式查询异常
Structured Streaming Python API
CSV的结构化流
Spark结构化流接收器
Spark结构化的流接收器到输出的延迟
结构化流传输如何确保文件接收器的一次写入语义正确？

我写了这段代码，但我无法理解我的错误
我无法从一个代码实例的列表中删除 None 值，但我可以在另一个实例中。为什么它适用于一个细分市场而不适用于另一个细分市场？
是否有可能使 loadstring 不可能等于打印？卢阿
java中的random.expovariate()
Appscript 通过会议在 Google 日历中发送电子邮件和创建活动
为什么我的 Onclick 箭头功能在 React 中不起作用？
在此代码中是否有使用“this”的替代方法？
在 SQL Server 和 PostgreSQL 上查询，我如何从第一个表获得第二个表的可视化
每千个数字得到
更新了城市边界 KML 文件的来源？