应用错误收集

将s3用作Hive的数据存储时，Hadoop的数据局部性原则是否成立

时间：2019-03-06 10:57:22

标签： hadoop amazon-s3 hive hdfs

我正在使用S3作为数据存储并创建Hive外部表，该表为存储在S3中的数据提供了位置。我想知道的是，每当查询Hive时，存储在S3上的数据是否会被拉到Hadoop集群节点进行处理？如果是，那么这意味着我们失去了Hadoop的数据局部性原则，并且处理将非常缓慢（与使用HDFS代替S3相比），因为大量数据将从S3移至Hadoop集群节点进行处理？

有人可以启发我吗？

0 个答案:

没有答案

输入格式是否负责在Hadoop的MapReduce中实现数据局部性？
使用hive将python脚本作为reducer加载map数据类型列
使用不同群集的HDFS时的数据位置
Hive在哪里存储文件系统上的数据？
无法作为服务器主体执行，因为主体“sa”不存在
HDFS是否在Hadoop的键值存储之上实现？怎么样？
运行压缩是否会通过Hive流阻止新数据的摄取？
当您使用insert into命令时，Hive是否会创建新数据？
将s3用作Hive的数据存储时，Hadoop的数据局部性原则是否成立
当基础数据更改时，是否需要在Hive中删除并创建分区？

我写了这段代码，但我无法理解我的错误
我无法从一个代码实例的列表中删除 None 值，但我可以在另一个实例中。为什么它适用于一个细分市场而不适用于另一个细分市场？
是否有可能使 loadstring 不可能等于打印？卢阿
java中的random.expovariate()
Appscript 通过会议在 Google 日历中发送电子邮件和创建活动
为什么我的 Onclick 箭头功能在 React 中不起作用？
在此代码中是否有使用“this”的替代方法？
在 SQL Server 和 PostgreSQL 上查询，我如何从第一个表获得第二个表的可视化
每千个数字得到
更新了城市边界 KML 文件的来源？