我需要将5 TB的图像数据从RDBMS迁移到cassandra。我试过sqoop但是太慢了。任何人都可以建议任何迁移工具。
由于
答案 0 :(得分:0)
使用spark在系统之间进行大量数据移动。 它具有分散性和弹性。
val jdbcDF = sqlContext.load("jdbc", Map(
"url" -> "jdbc:postgresql:dbserver",
"dbtable" -> "schema.tablename"))
http://spark.apache.org/docs/1.6.2/sql-programming-guide.html#jdbc-to-other-databases
jdbcDF.write.format("org.apache.spark.sql.cassandra").\
options(keyspace="ks", table="tablename").\
save(mode="append")
https://github.com/datastax/spark-cassandra-connector/blob/master/doc/14_data_frames.md
您可以使用开源Apache Spark或DataStax Enterprise。 Datastax Enterprise提供Apache Cassandra + Apache Spark +在每个节点上安装的许多其他东西,以便在Spark和Cassandra之间实现完美的分布式处理和数据位置。 我是DataStax员工。