Question

我在VPС中使用Apache Spark和Redshift，也将AWS S3用于Redshift COPY的源数据和临时数据。

现在，我怀疑从/到AWS S3的读/写性能不够好，并且基于以下讨论中的建议https://github.com/databricks/spark-redshift/issues/318，我在VPC中创建了S3端点。现在，当我从S3加载数据时，在创建S3端点之前和之后，我看不到任何性能差异。

在Apache Spark中，我通过以下方式读取数据：

spark.read.csv("s3://example-dev-data/dictionary/file.csv")

我是否需要在AWS EMR Apache Spark上添加/配置一些额外的逻辑/配置，以正确使用AWS S3终端节点？

Answer 1

S3 VPC端点是Gateway Endpoint，因此您必须在子网的路由表中放置一个新条目，在该表中启动将流量路由到端点的EMR群集。