ETL管道的数据整合

时间:2018-02-27 20:51:52

标签: sql mongodb hadoop cassandra etl

我目前正计划将一些数据源移到一个地方进行后验分析。

目前我有任何数据源(数据库),例如:

  • MSSQL
  • Mysql的
  • mongodb的
  • 的Postgres

Cassandra将用于大数据管道中的分析。将任何源迁移到Cassandra集群的最佳方法是什么?

1 个答案:

答案 0 :(得分:1)

我强烈建议在这个用例中使用NiFi。我可以立即勾勒出一些好处。

  • 内置的“处理器”可用于读取所有列出的数据源中的数据并写入Cassandra。
  • 吞吐量非常高,延迟低。
  • 快速数据采集管道开发,无需编写大量代码。
  • 如果需要,可以在项目的后期轻松完成“更改数据捕获”。
  • 提供高度并发的模型,而开发人员不必担心并发的典型复杂性。
  • 本质上是异步的,即使在处理和流量波动时也能实现非常高的吞吐量和自然缓冲
  • 资源受限的连接使得背压和压力释放等关键功能非常自然直观。
  • 数据进入和退出系统的点以及流量如何被很好地理解和轻松跟踪
  • 最重要的是,OPEN SOURCE。

您可以参考Apache NiFi homepage了解更多信息。

希望有所帮助!