在卡桑德拉集团

时间:2018-05-29 20:45:57

标签: group-by cql cassandra-3.0

我在csv中的商店中有一个包含1000万销售数据的表,其中包含以下列(id,date,store,item,unit_sales)。我想知道应该如何创建表,在分区键中放置什么字段,或者如果我需要cassandra中的集群键来进行以下查询:

select store, sum (unit_sales) from table group by store

我尝试使用CQL最新版本的控制台中的以下指令在cassandra中创建表的模型:

CREATE TABLE sales (
    id int,
    date date,
    item_nbr int,
    store_nbr int,
    unit_sales decimal,
    PRIMARY KEY (store_nbr));

但是当使用copy命令将数据从csv迁移到表时,因为有大量数据,并不是所有数据都会迁移。我做了一个计数,他们不是全部。也尝试做一个加重的udf功能但是我需要很长时间才能做出我告诉你的选择。请帮忙

1 个答案:

答案 0 :(得分:0)

这是因为您的主键,您将store_nbr设为PK,因此如果相同的PK数据重复,则会将您的现有数据设置为up。所以请添加任何其他键来识别10M行是唯一的,然后你可以在你的cassandra表中看到10M