使用镶木地板数据摄取时,是否有任何原因导致Druid摄取缓慢?我们已经观察到,当提取JSON数据时,提取速度至少要快2倍。一般来说,哪个更好?在Druid Hadoop批量提取的上下文中使用JSON或Parquet。
答案 0 :(得分:0)
Parquet已针对多次写入一次(WORM)范例进行了优化。写起来很慢,但是读起来却快得令人难以置信,尤其是当您仅访问全部列的子集时。由于实木复合地板数据格式是经过压缩和编码的,因此与JSON数据格式相比,写入速度较慢。
在这里,您可以使用镶木地板格式来降低数据吸收性能,但是由于其柱状格式,因此对于数据分析而言,它的速度非常快。