我有一个用例,需要将数据转储到DB中,没有任何唯一性。说一些随机数据,可以有很高的速度生成重复值。
现在Cassandra强制要求每个表都有分区键。 即使我可以引入TimeUUID列,但检索时又出现问题。这也可以使用Select子句中的ALLOW FILTER来处理。
我正在寻找更好的方法。任何人都可以建议其他方法。只有约束是我只能在Cassandra DB中转储数据,文件系统不可用。
答案 0 :(得分:1)
您似乎只想存储数据而不知道如何查询数据。使用Cassandra,您通常需要知道在设计数据模型之前如何查询它。如果要检索完整数据集,则性能较差。你可能想要考虑使用hdfs。
如果你真的需要在Cassandra存储,试着想办法存储它是有道理的。例如,您可以将数据存储在timebucket中。尝试调整存储桶大小以存储大约1MB的数据。如果您每分钟生成1MB数据,则需要一分钟桶。你有一个分区键作为日期的分钟,然后是一个聚类列作为timeUUID,然后是你要存储的其余数据。