如何使用Hadoop

时间:2015-08-05 15:26:45

标签: hadoop raspberry-pi windows-10-iot-core

我的Raspberry pi 2在Windows 10上运行良好,我可以使用.Net MF控制来自互联网的LED。现在,我想将我的LED(我将使用温度传感器而不是LED)的ON-OFF信号发送到大数据上,以便存储和分析或检索目的。

在网上查看,无法找到简单易行的方法。任何人都可以建议任何教程"我如何将实时数据发送到Hadoop"?我想了解整个架构以继续这一点。 我应该集中精力制作这样的POC的所有技术/事物是什么?

注意:我认为,我需要一些组合,如MQTT经纪人,Spark或Strom等......但不确定,我怎样才能把所有东西放在一起以使它几乎成为可能。如果我错了并提供帮助,请纠正我。

1 个答案:

答案 0 :(得分:1)

您可以使用构成Hadoop“生态系统”的几个组件之一,将信号作为事件流实时发送到Hadoop。只有当您想要实时地将逻辑应用于流时,才需要实时处理数据的Spark或Storm等系统。如果您只想批量处理事件并将它们存储在HDFS中以便以后通过批处理进行检索,则可以使用:

  • Apache Flume 。 Flume代理在一个或多个Hadoop节点上运行并侦听端口。您的Raspberry Pi将每个事件逐个发送到该端口。 Flume缓冲事件,然后将它们写入HDFS https://flume.apache.org/FlumeUserGuide.html

  • <强>卡夫卡即可。您的Raspberry Pi将事件逐个发送到Kafka实例,该实例将它们存储为消息队列。进一步的分布式批处理过程在Hadoop上定期运行,以便将事件从Kafka移动到HDFS。这种解决方案更加强大,但运动部件更多。