应用错误收集

HIVE分区＆amp; Spark中的支持支持无法按预期工作

时间：2017-10-22 16:59:30

标签： apache-spark amazon-s3

在S3中使用分区时，Spark会逐个列出所有分区，这会消耗时间。它应该在元存储表中寻找分区＆amp;应该立即去分区。我尝试了125个分区的示例。当我通过附加分区列值＆amp;来计算S3的确切位置时。尝试访问它，它在5秒内执行。但是如果我试图让Spark计算出分区，它会列出所有分区，这本身花费的时间超过30秒。我怎样才能让Spark使用谓词下推法从元存储中找出分区？

1 个答案:

答案 0 :(得分：1)

您需要设置外部hive Metastore（可以是mysql或postgres）。因此，表/分区的定义将保留在那里，并将在不同的Spark上下文生命周期中存活

regexp_extract hive not working as expected
Hive bucketing和现有表的分区
囤积不在蜂巢中工作
数据参数在Hive
月份在HIVE中未按预期工作
数据框重新分区没有按预期发生
我们什么时候应该在蜂巢中进行分区和分组？
HIVE分区＆amp; Spark中的支持支持无法按预期工作
Spark 2.3版本DF到Hive表，但分区和存储桶均不起作用
通过sparkSQL进行配置单元存储

我写了这段代码，但我无法理解我的错误
我无法从一个代码实例的列表中删除 None 值，但我可以在另一个实例中。为什么它适用于一个细分市场而不适用于另一个细分市场？
是否有可能使 loadstring 不可能等于打印？卢阿
java中的random.expovariate()
Appscript 通过会议在 Google 日历中发送电子邮件和创建活动
为什么我的 Onclick 箭头功能在 React 中不起作用？
在此代码中是否有使用“this”的替代方法？
在 SQL Server 和 PostgreSQL 上查询，我如何从第一个表获得第二个表的可视化
每千个数字得到
更新了城市边界 KML 文件的来源？