使用Python将非常大的csv文件中的特定列导入Cassandra的最快方法

时间:2017-08-03 10:05:54

标签: python csv batch-file cassandra multiprocessing

我有几个大型相同的结构化csv文件(十亿行)。我想在所有csv文件中选择相同的列,然后将它们导入到Cassandra表中。什么是最好的方法? csv的大小超出了COPY命令的功能。我认为选择列不适合SSTable(Cassandra批量装载机),对吗?我最初的想法是在Cassandra Python Driver中使用Python多处理和批量插入,但我不知道如何专门使用多处理和批量插入。

0 个答案:

没有答案