标签: hadoop benchmarking apache-spark-sql
我正在尝试使用sparksql运行tpc-ds基准测试。
在文档中,他们讨论了星型模式和表格数量。
根据我对hadoop的理解,更好地使用非规范化数据,然后你可以像压缩方式那样格式化。 (使用并行分区)
我也从SAS发现了这个文件 - > https://support.sas.com/resources/papers/data-modeling-hadoop.pdf
也在同一个词中谈论。我不是数据仓库专家,所以我会请求,帮助我了解如何为hadoop中的数据仓库建模数据