Question

我有一张Cassandra Customers表，它将保留一份客户列表。每个客户都有一个地址，这是一个标准字段列表：

{
   CustomerName: "",
   etc...,
   Address: {
              street: "",
              city: "",
              province: "",
              etc...
            }
}

我的问题是，如果我在此表中有一百万客户，并且我使用用户定义的数据类型地址来保存Customers表中每个客户的地址信息，这种模型的含义是什么，特别是在磁盘空间。这会非常昂贵吗？我应该使用Address用户定义的数据类型还是平坦地址信息，甚至使用单独的表？

Answer 1

基本上，在这种情况下发生的事情是Cassandra会将地址实例序列化为blob，blob作为客户表的一部分存储为单个列。我没有任何关于序列化将在磁盘或CPU使用量上占多少的数字，但它可能不会对您的用例产生很大影响。你应该测试两种情况。

编辑：我还应该提到的另一个方面：将UDT作为单个blob处理将意味着替换任何更新的完整UDT。这将比更新单个列效率低，并且是导致不一致的潜在原因。在并发更新的情况下，两次写入都可以覆盖彼此的更改。请参阅CASSANDRA-7423。

Cassandra是否根据性能推荐用户定义的数据类型？

1 个答案: