我有一个简单的表,我使用datastax cpp驱动程序填充。该表存储在cassandra数据库中。该表创建如下:
create table data (
dt_id int PRIMARY KEY,
dt_numbers list<int>,
insertion_time timestamp,
)
所以,对于我要插入的每一行
VALUES (1, [1,2,3,4], now())
问题是我试图插入100万行σ,时间是35分钟。在生产环境中,该时间被认为很高。
一些伪代码:
std::map<int, vector<int>> myData;
for( all entries in myData) {
const char* query = "INSERT INTO...";
future = cass_session_execute(session, statement);
cass_future_wait(future);
}
数据存储在std :: map中,我不关心首先写入哪个地图索引,但每个地图条目应该只插入一个。有没有办法提高这个程序的性能?有一个例子吗?
到目前为止我使用的代码是在另一行之后写一行,与其中一个数据存储示例中使用的代码类似
CassError insert_into_basic(CassSession* session, const char* key, const Basic* basic) {
CassError rc = CASS_OK;
CassStatement* statement = NULL;
CassFuture* future = NULL;
const char* query = "INSERT INTO examples.basic (key, bln, flt, dbl, i32, i64) VALUES (?, ?, ?, ?, ?, ?);";
statement = cass_statement_new(query, 6);
cass_statement_bind_string(statement, 0, key);
cass_statement_bind_bool(statement, 1, basic->bln);
cass_statement_bind_float(statement, 2, basic->flt);
cass_statement_bind_double(statement, 3, basic->dbl);
cass_statement_bind_int32(statement, 4, basic->i32);
cass_statement_bind_int64(statement, 5, basic->i64);
future = cass_session_execute(session, statement);
cass_future_wait(future);
rc = cass_future_error_code(future);
if (rc != CASS_OK) {
print_error(future);
}
cass_future_free(future);
cass_statement_free(statement);
return rc;
}
答案 0 :(得分:0)
由于您正在编写一行并等待真正写入该行,因此性能变慢。如果仔细查看文档,您会发现要从C *中获得最佳性能,您确实需要执行异步写入。在伪代码中,它将类似于:
std::map<int, vector<int>> myData;
std::list<CassFuture> futures;
for( all entries in myData) {
const char* query = "INSERT INTO...";
futures.push_back(cass_session_execute(session, statement));
if (futures.size() > 5000) {
for (all entries in futures) {
cass_future_wait(future);
cass_future_free(future);
}
futures.clear();
}
}
// Wait for the "trailing" futures...
for (all entries in futures) {
cass_future_wait(future);
cass_future_free(future);
}
这样你就可以获得性能提升。您应该调整5000
以符合您的要求/硬件规格。当然,实施一些策略来处理写入失败。