Question

我有一个名为geo_location的表，该表将public ip range保留在城市中（以整数形式）。我必须查询表中的ip，并检查它是否位于start_range和end_range之间，然后返回相应的行。该表具有2929393 rows。

这是我的表描述：

CREATE TABLE acrs.geo_location (
    start_range bigint,
    end_range bigint,
    city text,
    country text,
    country_init text,
    latitude double,
    longitude double,
    state text,
    PRIMARY KEY (start_range, end_range)
) WITH CLUSTERING ORDER BY (end_range ASC)
    AND bloom_filter_fp_chance = 0.01
    AND caching = {'keys': 'ALL', 'rows_per_partition': 'NONE'}
    AND comment = ''
    AND compaction = {'class': 'org.apache.cassandra.db.compaction.SizeTieredCompactionStrategy', 'max_threshold': '32', 'min_threshold': '4'}
    AND compression = {'chunk_length_in_kb': '64', 'class': 'org.apache.cassandra.io.compress.LZ4Compressor'}
    AND crc_check_chance = 1.0
    AND dclocal_read_repair_chance = 0.1
    AND default_time_to_live = 0
    AND gc_grace_seconds = 864000
    AND max_index_interval = 2048
    AND memtable_flush_period_in_ms = 0
    AND min_index_interval = 128
    AND read_repair_chance = 0.0
    AND speculative_retry = '99PERCENTILE';

这是表中的示例数据：

@ Row 1
--------------+---------------------------------
 start_range  | 3753640192
 end_range    | 3753640447
 city         | Tonk
 country      | India
 country_init | IN
 latitude     | 26.16667
 longitude    | 75.78333
 state        | Rajasthan

@ Row 2
--------------+---------------------------------
 start_range  | 1358168576
 end_range    | 1358171135
 city         | Kent
 country      | United Kingdom
 country_init | GB
 latitude     | 51.25
 longitude    | 0.75
 state        | England

现在，当我查询时：

select * from geo_location where start_range < 2534358817 and end_range > 2534358817 ALLOW FILTERING ;

返回结果行要花费很多时间。由于我最近从关系数据库转移到此数据库，因此我的数据模型可能不正确，因此需要寻求有关它的一些帮助。谢谢。

Answer 1

当您必须使用ALLOW FILTERING时，您的数据库结构很可能是错误的。

在cassandra中，无法对分区键使用范围查询。您需要做的就是修改表结构，使其具有一个分区键（该键可以对数据进行聚类（例如按日期））和聚类键start_range，end_range。

请参阅： Difference between partition key, composite key and clustering key in Cassandra?

Answer 2

理想情况下，您要减少搜索的行数。一种选择是创建并填充另一个表range_by_country (country, state, start_range, end_range)，您首先查询该表以查找国家/地区并声明ip所属的状态。

接下来，将初始表的主键修改为：

PRIMARY KEY ((country, state), start_range, end_range)

现在将国家和州添加到您的查询中。这将大大提高性能，因为我们正在搜索处于状态的所有条目而不是数据库的所有条目。

优化Cassandra查询以获得更快的结果

2 个答案: