我有一个大的立方体,处理时间太长了。我想更改我的多维数据集分区和处理选项。我知道流程增量会将新记录拉入多维数据集。我的问题是,拥有多个分区并执行流程增量是否有优势,而不仅仅是拥有一个分区并执行流程增量?我不希望每次处理都会有大量的新记录。
答案 0 :(得分:0)
拥有多个分区的优点是可以并行加载每个分区。如果新记录的数量不是很大,并且处理时间很快,您只需使用一个分区即可。
拥有多个分区的问题是您必须管理向每个分区公开的数据。如果将相同的数据处理成多个分区,那么您将在多维数据集中获得重复数据。