Question

我在csv中的商店中有一个包含1000万销售数据的表，其中包含以下列（id，date，store，item，unit_sales）。我想知道应该如何创建表，在分区键中放置什么字段，或者如果我需要cassandra中的集群键来进行以下查询：

select store, sum (unit_sales) from table group by store

我尝试使用CQL最新版本的控制台中的以下指令在cassandra中创建表的模型：

CREATE TABLE sales (
    id int,
    date date,
    item_nbr int,
    store_nbr int,
    unit_sales decimal,
    PRIMARY KEY (store_nbr));

但是当使用copy命令将数据从csv迁移到表时，因为有大量数据，并不是所有数据都会迁移。我做了一个计数，他们不是全部。也尝试做一个加重的udf功能但是我需要很长时间才能做出我告诉你的选择。请帮忙

Answer 1

这是因为您的主键，您将store_nbr设为PK，因此如果相同的PK数据重复，则会将您的现有数据设置为up。所以请添加任何其他键来识别10M行是唯一的，然后你可以在你的cassandra表中看到10M