如何与tpc-ds基准测试并行生成表?

时间:2019-06-17 12:58:54

标签: apache-spark

如何运行tpc-ds数据生成(dsdgen),然后以并行分布式模式对这些数据(dsqgen)运行查询。我在纱线配置(spark.master yarn上使用Spark,并将数据存储在突发缓冲区存储系统上。

1 个答案:

答案 0 :(得分:0)

请在https://github.com/dhiraa/spark-tpcds处检查我当前的浏览情况。 Ť t下有一个可以并行生成数据的应用程序。

或者您可以在https://github.com/maropu/spark-tpcds-datagen上查看我的参考资料

在两种情况下,请不要忘记使用选项“ --partition-tables”来利用并行生成。