标签: hadoop amazon-s3 hive hdfs
我正在使用S3作为数据存储并创建Hive外部表,该表为存储在S3中的数据提供了位置。我想知道的是,每当查询Hive时,存储在S3上的数据是否会被拉到Hadoop集群节点进行处理?如果是,那么这意味着我们失去了Hadoop的数据局部性原则,并且处理将非常缓慢(与使用HDFS代替S3相比),因为大量数据将从S3移至Hadoop集群节点进行处理?
有人可以启发我吗?