这可能是一个简单的问题,但它是概念性的,而不是Google可能提供的明确答案。但我目前的理解是,为了将数据“摄取”到hadoop集群中,首先必须在Master pc或集群单元上拥有数据。这与我知道的事实相矛盾,你可以使用hadoop作为分散数据收集的方法,如果每个单元都有传感器,你可以在设备上收集数据并以这种方式摄取。
假设我有一个Raspberry pi(或任何其他外围设备),我想将数据添加到Hadoop分布式处理/数据库中。 我是否需要将此以太网设备作为集群上的整个节点(具有自己的HDFS贡献等),以便设备只需将数据输入到Hadoop集群,以便可以访问从任何节点?如果我不需要这样做,那么我需要采取哪些步骤才能实现这一目标?
再次对不起,如果这对于这个网站来说过于概念化,但我只想确保在理解我缩小范围并放大以开始编码以确保我正在处理正确的事情之前理解我。
答案 0 :(得分:0)
从概念上讲,您的以太网设备(Raspberry Pi)不必是Hadoop集群的一部分。它可以远程上传数据到HDFS(例如like this),也可以上传到Hadoop可以读取的任何其他数据存储区。
例如:Pi可以将数据上传到Amazon S3存储桶,之后您可以启动使用S3作为输入的Hadoop(例如,在EMR上)集群。