VPC中的AWS EMR Apache Spark和自定义S3终端节点

时间:2019-04-02 08:24:08

标签: amazon-web-services apache-spark amazon-s3 amazon-emr

我在VPС中使用Apache Spark和Redshift,也将AWS S3用于Redshift COPY的源数据和临时数据。

现在,我怀疑从/到AWS S3的读/写性能不够好,并且基于以下讨论中的建议https://github.com/databricks/spark-redshift/issues/318,我在VPC中创建了S3端点。现在,当我从S3加载数据时,在创建S3端点之前和之后,我看不到任何性能差异。

在Apache Spark中,我通过以下方式读取数据:

spark.read.csv("s3://example-dev-data/dictionary/file.csv")

我是否需要在AWS EMR Apache Spark上添加/配置一些额外的逻辑/配置,以正确使用AWS S3终端节点?

1 个答案:

答案 0 :(得分:1)

S3 VPC端点是Gateway Endpoint,因此您必须在子网的路由表中放置一个新条目,在该表中启动将流量路由到端点的EMR群集。