如何使用任何opensource etl工具将数据从postgres迁移到cassandra?

时间:2017-08-01 16:49:26

标签: postgresql cassandra talend

我正在尝试不使用copy命令,因为它的数据库非常大。我正在使用talend etl开源工具,但还没有找到任何解决方案。

2 个答案:

答案 0 :(得分:2)

如果您更喜欢Apache Spark,可以使用Spark Cassandra Connector将DataFrame保存到Cassandra。

请参阅this question,了解如何使用PySpark连接Postgres。

答案 1 :(得分:1)

向Cassandra数据迁移有3种最常见的选择:
1.自定义Spark工作。这需要一些编程,尽管它将是最具可扩展性的解决方案,并允许您拥有任何自定义数据转换逻辑。您可能需要进行数据转换,因为我无法想象您将为RDBMS和键值存储提供完全相同的表结构。
2.使用DataStax Enterprise软件包中的sqoop(它包含Cassandra的自定义驱动程序) 3.使用sqoop和Casasndra的JDBC驱动程序。虽然,我对最后的Cassandra的JDBC驱动程序版本功能和稳定性一无所知。我们在早期的问题上遇到了一些问题 好的,有第四个。您可以编写自己的数据简单独立迁移工具(例如,使用Java)。该工具将逐行读取Postgres中的数据并调用Cassandra的插入。尽管相当简单,但这将非常缓慢 您已经提到数据库非常大。但这只意味着您必须等待更长时间才能完成迁移。这对许多情况来说并不重要,真的 CPU工作,你可以做其他事情。否则,你必须在CPU松弛时使用自己的时间。