使用dsbulk在cassandra中加载数据时出现问题

时间:2019-03-21 21:48:19

标签: cassandra datastax-enterprise dsbulk

使用dsbulk将数据从.csv文件加载到表中时遇到问题。 我在错误日志中得到如下所示。

由以下原因引起:com.datastax.driver.core.exceptions.OperationTimedOutException:[/10.0.126.13:9042]等待服务器响应时超时

此环境是我们的POC环境,包含3个节点,8个CPU和64G内存。根据我的观察,当我运行dsbulk命令时,它耗尽了服务器上的所有CPU,并且内存消耗也很高。

如果可以给我提供指向微调dsbulk的指针,通过它可以减少cpu的使用/内存消耗。如果此操作的速度变慢,并且我的性能无法控制,则表示不满意。

2 个答案:

答案 0 :(得分:1)

您可以指定--executor.maxPerSecond选项来限制每秒的操作次数。请参见documentation for DSBulk

另外,您可以尝试调整batching options,例如--batch.maxBatchStatements

并且还建议从单独的计算机上运行DSBulk,以防止它影响DSE的性能。 (这是所有负载测试的常见建议,等等。)

答案 1 :(得分:0)

感谢大家的帮助,我能够通过下载最新版本的debulk并将批次大小设置为5000来解决此问题。