有人可以给我指向一个URL,该URL解释在AWS EMR上执行的作业中,数据如何从S3流向内存,从HDFS流向磁盘空间吗? 我了解Core和Task节点扮演的角色,但不清楚数据将如何流动。 例如;如果Im在Hive中加入两个表,其数据位于S3中。数据会先进入HDFS,然后再进入内存,反之亦然;何时使用任务节点上的磁盘空间? 数据如何从主节点或核心节点流向任务节点?
我问这个问题的原因是,有时我的作业失败,并显示消息“数据节点坏”,这主要是由于HDFS已满,或者节点由于磁盘空间已满而变得不正常。
因此,我试图找出每个组件所扮演的角色。 当群集处于本地状态时,我再也不必遇到此类问题,因此现在我需要更好地配置AWS群集。
谢谢