应用错误收集

这可能是一个简单的问题，但它是概念性的，而不是Google可能提供的明确答案。但我目前的理解是，为了将数据“摄取”到hadoop集群中，首先必须在Master pc或集群单元上拥有数据。这与我知道的事实相矛盾，你可以使用hadoop作为分散数据收集的方法，如果每个单元都有传感器，你可以在设备上收集数据并以这种方式摄取。

假设我有一个Raspberry pi（或任何其他外围设备），我想将数据添加到Hadoop分布式处理/数据库中。 我是否需要将此以太网设备作为集群上的整个节点（具有自己的HDFS贡献等），以便设备只需将数据输入到Hadoop集群，以便可以访问从任何节点？如果我不需要这样做，那么我需要采取哪些步骤才能实现这一目标？

再次对不起，如果这对于这个网站来说过于概念化，但我只想确保在理解我缩小范围并放大以开始编码以确保我正在处理正确的事情之前理解我。

对数据摄取hadoop感到困惑

1 个答案: