应用错误收集

时间：2017-08-10 09:32:53

标签： sql-server apache-spark apache-kafka real-time cloudera

我们在SQL Server中有PLC数据，每5分钟更新一次。必须在相同的时间间隔内将数据推送到cloudera分发中的HDFS。哪些工具适用于此？

答案 0 :(得分：0)

我建议使用Confluent Kafka执行此任务（https://www.confluent.io/product/connectors/）。

这个想法如下：

SQLServer - ＆gt; [JDBC-Connector] - ＆gt;卡夫卡 - ＆gt; [HDFS-Connector] - ＆gt; HDFS

所有这些连接器都已通过汇合网站提供。

答案 1 :(得分：0)

我假设您的数据正在本地FS的某个目录中写入。您可以使用一些流媒体来完成此任务。由于您已使用apache-spark对此进行了标记，因此我将为您提供Spark Streaming解决方案。

使用结构化流式传输，您的流媒体使用者将观看您的数据目录。 Spark流以可配置的微批次（流等待时间）读取和处理数据，在您的情况下，持续时间为5分钟。您可以将每个微批次中的数据保存为文本文件，这些文件将使用您的cloudera hadoop集群进行存储。

如果这有帮助，请告诉我。干杯。

答案 2 :(得分：0)

你可以谷歌名为sqoop的工具。它是一个开源软件。