Question

对于我目前的项目，我使用Cassandra Db经常获取数据。每秒内至少会有30个Db请求。对于每个请求，从Db获取至少需要40000行。以下是我当前的代码，此方法将返回Hash Map。

 public Map<String,String> loadObject(ArrayList<Integer> tradigAccountList){

        com.datastax.driver.core.Session session;
        Map<String,String> orderListMap = new HashMap<>();
        List<ResultSetFuture> futures = new ArrayList<>();
        List<ListenableFuture<ResultSet>> Future;

        try {
            session =jdbcUtils.getCassandraSession();
            PreparedStatement statement = jdbcUtils.getCassandraPS(CassandraPS.LOAD_ORDER_LIST);

            for (Integer tradingAccount:tradigAccountList){
                futures.add(session.executeAsync(statement.bind(tradingAccount).setFetchSize(3000)));
            }
            Future = Futures.inCompletionOrder(futures);

            for (ListenableFuture<ResultSet> future : Future){
                for (Row row: future.get()){
                    orderListMap.put(row.getString("cliordid"), row.getString("ordermsg"));
                }
            }

        }catch (Exception e){
        }finally {
        }
        return orderListMap;
    }

我的数据请求查询是这样的，＆＃34; SELECT cliordid，ordermsg FROM omsks_v1.ordersStringV1 WHERE tradacntid =？＆＃34;。我的Cassandra集群有2个节点，每个节点有32个并发读写线程，我的Db架构如下

CREATE TABLE omsks_v1.ordersstringv1_copy1 (
    tradacntid int,
    cliordid text,
    ordermsg text,
    PRIMARY KEY (tradacntid, cliordid)
) WITH bloom_filter_fp_chance = 0.01
AND comment = ''
AND dclocal_read_repair_chance = 0.1
AND default_time_to_live = 0
AND gc_grace_seconds = 864000
AND max_index_interval = 2048
AND memtable_flush_period_in_ms = 0
AND min_index_interval = 128
AND read_repair_chance = 0.0
AND speculative_retry = '99.0PERCENTILE'
AND caching = {
    'keys' : 'ALL',
    'rows_per_partition' : 'NONE'
}
AND compression = {
    'sstable_compression' : 'LZ4Compressor'
}
AND compaction = {
    'class' : 'SizeTieredCompactionStrategy'
};

我的问题是获得Cassandra超时异常，如何优化我的代码来处理所有这些请求

Answer 1

如果要附加该异常（读/写异常）的snnipet会更好。我假设你正在读取超时。您正尝试在单个请求上获取大型数据集。

对于每个请求，从Db获取至少需要40000行

如果你有一个大记录并且结果集太大，如果在Cassandra.yaml中提到的时间限制内无法返回结果，则会抛出异常。

read_request_timeout_in_ms

您可以增加超时但这不是一个好选择。它可以解决问题（可能不会抛出异常，但会返回结果需要更多时间）。

解决方案：对于大数据集，您可以使用带限制的手动分页（范围查询）来获得结果。

SELECT cliordid，ordermsg FROM omsks_v1.ordersStringV1 在哪里tradacntid＆gt; =？和cliordid＆gt; ？限制？;

或使用范围查询

SELECT cliordid，ordermsg FROM omsks_v1.ordersStringV1 WHERE tradacntid =？和cliordid＆gt; =？和cliordid＆lt; =？;

这比获取整个结果集要快得多。

您还可以尝试减少提取大小。虽然它会返回整个结果集。

public Statement setFetchSize(int fetchSize)检查是否抛出异常。

setFetchSize控制页面大小，但它不控制 ResultSet中返回的最大行数。

需要注意的另一点：

tradigAccountList的大小是什么？

一次请求太多也可能导致超时。一次完成大规模的tradigAccountList和大量读取请求（Cassandra处理请求的负载平衡以及可以处理多少请求取决于簇大小和其他一些因素）可能导致此异常。

一些相关链接：

Cassandra read timeout

NoHostAvailableException With Cassandra & DataStax Java Driver If Large ResultSet

Cassandra .setFetchSize() on statement is not honoured

卡桑德拉例外

1 个答案: