我在VPС中使用Apache Spark和Redshift,也将AWS S3用于Redshift COPY的源数据和临时数据。
现在,我怀疑从/到AWS S3的读/写性能不够好,并且基于以下讨论中的建议https://github.com/databricks/spark-redshift/issues/318,我在VPC中创建了S3端点。现在,当我从S3加载数据时,在创建S3端点之前和之后,我看不到任何性能差异。
在Apache Spark中,我通过以下方式读取数据:
spark.read.csv("s3://example-dev-data/dictionary/file.csv")
我是否需要在AWS EMR Apache Spark上添加/配置一些额外的逻辑/配置,以正确使用AWS S3终端节点?