当我确定源数据在S3中并且处理结果将存储在S3中时,是否可以构建具有主节点和一组任务(从属)节点(具有核心节点)的AWS EMR
基本上,问题是"当EMR要处理S3中的数据时,需要使用Datanode进程。 (我们不在HDFS中存储和使用任何东西)。
答案 0 :(得分:1)
EMR中的核心节点提供计算资源以及HDFS。在Hadoop 2.x中,这将由YARN NodeManager提供。即使应用程序的输入和输出都在S3上,YARN(以及像Hive这样的其他应用程序层)也会利用HDFS来播放jar,分割信息,会话数据等。