标签: python csv batch-file cassandra multiprocessing
我有几个大型相同的结构化csv文件(十亿行)。我想在所有csv文件中选择相同的列,然后将它们导入到Cassandra表中。什么是最好的方法? csv的大小超出了COPY命令的功能。我认为选择列不适合SSTable(Cassandra批量装载机),对吗?我最初的想法是在Cassandra Python Driver中使用Python多处理和批量插入,但我不知道如何专门使用多处理和批量插入。