我正在尝试使用以下语法将CSV导入Cassandra中的列族:
copy data (id, time, vol, speed, occupancy, status, flags) from 'C:\Users\Foo\Documents\reallybig.csv' with header = true;
CSV文件大约700 MB,由于某种原因,当我在cqlsh中运行此命令时,我收到以下错误:
"请求未在rpc_timeout内完成。"
出了什么问题? CSV中没有错误,在我看来,Cassandra应该毫不费力地使用这个CSV。
答案 0 :(得分:1)
Cassandra安装文件夹有一个.yaml文件来设置rpc超时值,即“rpc_timeout_in_ms”,你可以修改该值并重新启动cassandra。
但另一种方法是削减你的大csv以繁殖文件并逐个输入文件。
答案 1 :(得分:1)
这实际上最终是我自己对COPY-FROM
的误解,因为CSV大约有1700万行。在这种情况下,最好的选择是使用批量加载器示例并运行sstableloader
。但是,如果我想将CSV分解为17种不同的CSV,那么上面的答案肯定会有用。