我们在SQL Server中有PLC数据,每5分钟更新一次。 必须在相同的时间间隔内将数据推送到cloudera分发中的HDFS。 哪些工具适用于此?
答案 0 :(得分:0)
我建议使用Confluent Kafka执行此任务(https://www.confluent.io/product/connectors/)。
这个想法如下:
SQLServer - > [JDBC-Connector] - >卡夫卡 - > [HDFS-Connector] - > HDFS
所有这些连接器都已通过汇合网站提供。
答案 1 :(得分:0)
我假设您的数据正在本地FS的某个目录中写入。您可以使用一些流媒体来完成此任务。由于您已使用apache-spark
对此进行了标记,因此我将为您提供Spark Streaming解决方案。
使用结构化流式传输,您的流媒体使用者将观看您的数据目录。 Spark流以可配置的微批次(流等待时间)读取和处理数据,在您的情况下,持续时间为5分钟。您可以将每个微批次中的数据保存为文本文件,这些文件将使用您的cloudera hadoop集群进行存储。
如果这有帮助,请告诉我。干杯。
答案 2 :(得分:0)
你可以谷歌名为sqoop的工具。它是一个开源软件。