德鲁伊木地板的吞咽性能差

时间:2019-02-07 16:57:21

标签: json apache-spark hadoop parquet druid

使用镶木地板数据摄取时,是否有任何原因导致Druid摄取缓慢?我们已经观察到,当提取JSON数据时,提取速度至少要快2倍。一般来说,哪个更好?在Druid Hadoop批量提取的上下文中使用JSON或Parquet。

1 个答案:

答案 0 :(得分:0)

Parquet已针对多次写入一次(WORM)范例进行了优化。写起来很慢,但是读起来却快得令人难以置信,尤其是当您仅访问全部列的子集时。由于实木复合地板数据格式是经过压缩和编码的,因此与JSON数据格式相比,写入速度较慢。

在这里,您可以使用镶木地板格式来降低数据吸收性能,但是由于其柱状格式,因此对于数据分析而言,它的速度非常快。