We will be using cassandra to store .csv and unstructured data in our project. The data can be into GBs. So I want to know which is better way or tools to load data into Cassandra. SSTables can handle so much of data? Or I should go for tools like spark or YCSB?
答案 0 :(得分:2)
(免责声明:我是ScyllaDB员工)
SStables可以轻松存储这么大小的数据(还有更多...)
如果您的数据采用SStable格式,那么我强烈建议您使用SStableLoader实用程序。 不带任何参数运行将显示选项和用法列表。最重要的是sstables目录和节点IP。 我建议在准备好的语句中使用-x标志,因为它可以提高性能。
示例:
sstableloader -x -d [node IP] .../[ks]/[table]
sstableloader -x -d [node IP] .../[mount point] (in /[ks]/[table] format)
另一种选择是使用批量复制。例如:copy keyspace1.table1 FROM 'a.csv' WITH HEADER=TRUE;
我建议您阅读此blog有关Cassandra和Scylla中大型数据集的摄取率的信息。 您可以发现另一个blog有趣的是从各种数据库架构加载数据。
祝你好运,装载愉快。