如何提高Vora性能

时间:2016-05-02 14:01:06

标签: vora

我一直在使用Sap Spark Controller和Base Spark Server在Vora和Hive中运行一些测试。 Controller和Spark Thrift服务器都具有相同的配置。

12栏
10M行表
680MB

Spark Server和SAP Controller都是使用--master YARN和相同数量的执行程序,执行程序内存和内核启动的。 Controller和The Thrift Server位于Hadoop集群的同一台服务器上,我运行一次测试关闭Controller / Thriftserver,然后启动另一台测试。

以下所有数字均来自 Thrift服务器作业完成时间 SAP控制器作业完成时间,我不等待结果显示在HANA或Beeline或火花 - 壳

结果:

Spark-Shell - > Spark Thriftserver - >蜂房
选择列返回:13s
计数返回:1.2s

Spark-Shell - > Spark Thriftserver - >沃拉
选择列返回:5s
计数返回:100ms

Hana - >树液控制器 - >蜂房
选择列返回:45s
计数返回:4s

Hana - >树液控制器 - >沃拉
选择列返回:24s
计数返回:2.1s

直线 - > Spark Thriftserver - >蜂房
选择列返回:35s
计数返回:1.9s

直线 - > Spark Thriftserver - >沃拉
选择列返回:55s
计数返回:1.2s

是否有任何重要的性能调整技巧来帮助控制器?我可以从Vora以比控制器更快的速度从Hive中选择的事实很有趣。

1 个答案:

答案 0 :(得分:0)

经过一些分区更改后。我已经让SAP Controller从 Hive 以更快的速度选择数据,Vora仍然大致相同的速度。 似乎较少数量的分裂对控制器有很大帮助 将数据从31个文件拆分为10个文件会使查询时间减少75%以上

目前的结果:

Spark-Shell - > Spark Thriftserver - >蜂房
选择列返回:14s
计数返回:1s

Hana - >树液控制器 - >蜂房
选择列返回:10s
计数返回:5s

直线 - > Spark Thriftserver - >蜂房
选择列返回:7s
计数返回:1.3s

伯爵似乎仍然缓慢地回归,但不是问题。