应用错误收集

有人可以给我指向一个URL，该URL解释在AWS EMR上执行的作业中，数据如何从S3流向内存，从HDFS流向磁盘空间吗？我了解Core和Task节点扮演的角色，但不清楚数据将如何流动。例如;如果Im在Hive中加入两个表，其数据位于S3中。数据会先进入HDFS，然后再进入内存，反之亦然；何时使用任务节点上的磁盘空间？数据如何从主节点或核心节点流向任务节点？

我问这个问题的原因是，有时我的作业失败，并显示消息“数据节点坏”，这主要是由于HDFS已满，或者节点由于磁盘空间已满而变得不正常。

因此，我试图找出每个组件所扮演的角色。当群集处于本地状态时，我再也不必遇到此类问题，因此现在我需要更好地配置AWS群集。

谢谢

AWS EMR-从S3到核心和任务节点的数据流

0 个答案: