在cloudera中从SQL SERVER到HDFS的近实时数据提取

时间:2017-08-10 09:32:53

标签: sql-server apache-spark apache-kafka real-time cloudera

我们在SQL Server中有PLC数据,每5分钟更新一次。 必须在相同的时间间隔内将数据推送到cloudera分发中的HDFS。 哪些工具适用于此?

3 个答案:

答案 0 :(得分:0)

我建议使用Confluent Kafka执行此任务(https://www.confluent.io/product/connectors/)。

这个想法如下:

SQLServer - > [JDBC-Connector] - >卡夫卡 - > [HDFS-Connector] - > HDFS

所有这些连接器都已通过汇合网站提供。

答案 1 :(得分:0)

我假设您的数据正在本地FS的某个目录中写入。您可以使用一些流媒体来完成此任务。由于您已使用apache-spark对此进行了标记,因此我将为您提供Spark Streaming解决方案。

使用结构化流式传输,您的流媒体使用者将观看您的数据目录。 Spark流以可配置的微批次(流等待时间)读取和处理数据,在您的情况下,持续时间为5分钟。您可以将每个微批次中的数据保存为文本文件,这些文件将使用您的cloudera hadoop集群进行存储。

如果这有帮助,请告诉我。干杯。

答案 2 :(得分:0)

你可以谷歌名为sqoop的工具。它是一个开源软件。