我在csv中的商店中有一个包含1000万销售数据的表,其中包含以下列(id,date,store,item,unit_sales)。我想知道应该如何创建表,在分区键中放置什么字段,或者如果我需要cassandra中的集群键来进行以下查询:
select store, sum (unit_sales) from table group by store
我尝试使用CQL最新版本的控制台中的以下指令在cassandra中创建表的模型:
CREATE TABLE sales (
id int,
date date,
item_nbr int,
store_nbr int,
unit_sales decimal,
PRIMARY KEY (store_nbr));
但是当使用copy命令将数据从csv迁移到表时,因为有大量数据,并不是所有数据都会迁移。我做了一个计数,他们不是全部。也尝试做一个加重的udf功能但是我需要很长时间才能做出我告诉你的选择。请帮忙
答案 0 :(得分:0)
这是因为您的主键,您将store_nbr设为PK,因此如果相同的PK数据重复,则会将您的现有数据设置为up。所以请添加任何其他键来识别10M行是唯一的,然后你可以在你的cassandra表中看到10M