我使用apache Cassandra
在一个庞大的博客处理项目中工作,但我想知道如果我在一个列家庭中有太多行。这会让我的查询变慢吗?
在我的数据中,我们每天有大约1000亿行日志
如果我将它们分配到许多列族(如20120627的日间模式)更理想???
任何人都可以给我一个建模这个数据的建议吗?
我打算只创建这样的列族:
CREATE TABLE data (
KEY text PRIMARY KEY
) WITH
comment='log' AND
comparator=text
我想以时间戳的大块处理数据(前处理:10:20 - > 10:30数据)
答案 0 :(得分:1)
我认为你不必创建许多列族但是要使用复合键并使用列。
密钥可以是表单(一天中的某天:日志的时间戳)或(一天中的小时:日志的时间戳)或(一天中的分钟:日志的时间戳)
然后,为了防止与具有相同时间戳的日志冲突,您可以使用超级列。
您可以获得有关cassandra限制的更多信息:http://wiki.apache.org/cassandra/CassandraLimitations