hadoop - 如何使用Hadoop

我的Raspberry pi 2在Windows 10上运行良好，我可以使用.Net MF控制来自互联网的LED。现在，我想将我的LED（我将使用温度传感器而不是LED）的ON-OFF信号发送到大数据上，以便存储和分析或检索目的。

在网上查看，无法找到简单易行的方法。任何人都可以建议任何教程＆＃34;我如何将实时数据发送到Hadoop＆＃34;？我想了解整个架构以继续这一点。我应该集中精力制作这样的POC的所有技术/事物是什么？

注意：我认为，我需要一些组合，如MQTT经纪人，Spark或Strom等......但不确定，我怎样才能把所有东西放在一起以使它几乎成为可能。如果我错了并提供帮助，请纠正我。

您可以使用构成Hadoop“生态系统”的几个组件之一，将信号作为事件流实时发送到Hadoop。只有当您想要实时地将逻辑应用于流时，才需要实时处理数据的Spark或Storm等系统。如果您只想批量处理事件并将它们存储在HDFS中以便以后通过批处理进行检索，则可以使用：

Apache Flume 。 Flume代理在一个或多个Hadoop节点上运行并侦听端口。您的Raspberry Pi将每个事件逐个发送到该端口。 Flume缓冲事件，然后将它们写入HDFS https://flume.apache.org/FlumeUserGuide.html
<强>卡夫卡即可。您的Raspberry Pi将事件逐个发送到Kafka实例，该实例将它们存储为消息队列。进一步的分布式批处理过程在Hadoop上定期运行，以便将事件从Kafka移动到HDFS。这种解决方案更加强大，但运动部件更多。