使用Apache Spark提高Teradata卸载性能

时间:2018-04-09 14:55:08

标签: performance apache-spark

我在Teradata中拥有超过1 TB的数据,我必须在spark代码中导入和处理数据,我已经完成了火花提交执行器内存,核心数和驱动程序内存,核心的所有有效方法,即使它&#39在集群环境中花费更多时间。我的集群数据节点大小是4节点,超过500 gb,所有其他主要考虑因素都有提高性能..请帮助

1 个答案:

答案 0 :(得分:0)

如果您发布用于加载DataFrame的代码,我可以提供更多帮助。在这种情况下,我通常会发现Spark连接器在加载过程中会发生意外情况。如果您有办法检查Spark在Teradata集群上运行的查询,您可能会发现它以低效的顺序加载。

加载数据后你在做什么?您是否有理由在Spark集群中需要100%的内存数据集? Teradata以更加压缩的格式将数据存储在磁盘上,而不是将其存储在Spark群集的内存中。您可以在谓词下推中获得更多成功,以限制您在Spark中提取的数据量。有关详情,请参阅Push down a query to the database engine和以下“推送优化”。