kognitio中不同类型的成像技术

时间:2015-07-22 10:07:37

标签: kognitio-wx2 kognitio

任何人都可以向我解释一下kognitio中可用的所有成像技术。

如果你涵盖以下技巧,那就太棒了。

1)复制

2)复制的分区图像(column_name)

3)HASHED ON(column_name)PARTITION IMAGE BY(column_name)

提前致谢。

2 个答案:

答案 0 :(得分:1)

Kognitio社区论坛文章here包含所有最新文档的链接。

特别是,Kognitio指南的第2章涵盖了现有的各种表格和视图图像选项。

原始问题中提到的是:

  1. 已复制 - 此处将对象的副本放置在每个ram存储进程中。这通常用于维对象,以允许它们连接到大对象,无论这些对象是随机分布还是散列。
  2. 分区(决定是否分区与您是复制/随机/散列无关) - 这允许ram存储对属性进行分区。主要好处是可以在扫描时消除分区,减少处理的数据量。请注意有关分区的文档中的进一步注释。
  3. 散列 - 对属性进行散列可以根据该属性值分配数据。例如,在零售示例中,您可以按customer_id对客户表进行散列,并对事务表执行相同操作,然后任何给定的事务与相关客户记录位于同一个ram存储中。请注意,这种分布容易发生偏差;因此,请参阅文档以获取有关使用部分分布来抵消歪斜的详细信息。

答案 1 :(得分:0)

我们在WX2中有四种不同的成像选项 随机 - 甚至循环分配(默认) 散列 - 根据键放置在RAM存储中 部分哈希 - 作为哈希但处理偏斜属性 复制 - 每个RAM存储上的完整副本

复制会在每个RAM Store上放置映像的副本。就RAM和再分配时间而言,它可能是昂贵的。适用于小型查找/维度表 它不能分散。 Theta加入是必需的。复制是按RAM存储而不是每个节点。

Hashing在RAM存储中分配表或视图图像的行。它取决于一列或多列的值。它很适合加入大表 - 哈希在公共密钥上。这可能会导致倾斜。不同值的数量小于RAM存储的数量。一个或两个值在频率上大大超过其他值。部分分布可用于中和价值偏差

部分散列是一种在大型表严重偏向关键列时处理连接的机制。它是直接散列的替代方案。类型是部分散列/随机RAM存储和跨RAM存储的部分散列/复制