我正在优化利用Apache Spark,HDFS和YARN作为集群管理器的数据管道。 Spark群集由数量有限的内部计算机组成,这些内部计算机在各种组之间共享。因此,取决于使用这些机器的程度,构建管道的某些组件将花费不同的时间。我正在尝试提出一个指标,以逐个组件地判断我的优化在多大程度上改善了现有数据管道的性能。现在,我能想到的两个是:
1)构建期间的内存使用*构建组件花费的时间
2)构建期间使用的CPU数量*构建组件所花费的时间
您对这些指标有何看法?什么是更准确的测量?是否有更好的性能衡量标准?我将对任何建议持开放态度,因为我是大数据领域的新手。任何帮助将不胜感激!
谢谢
泰勒