我在s3存储桶上有20 TB的数据(镶木地板文件的集合)。我有一个非常简单的自定义算法(pandas + numpy + scikit-learn),我想将其应用于上述数据集。数据可以分为大约600个块(每个块约30 GB),我的算法可以在这些块上独立运行。该算法大约需要2个小时才能在每个块上运行。我想利用AWS服务执行以下步骤:
每个阶段应使用哪些AWS服务?如何整合这些服务?谁能详细列出它们?
理想情况下,我希望算法最多运行24小时。
答案 0 :(得分:1)
这听起来像是运行Apache Spark on Amazon EMR - Big Data Platform - Amazon Web Services的确切用例。它旨在为Amazon S3中存储的数据提供大规模并行处理。
此外,它应该能够并行处理数据文件,而不必拆分它们。
我建议您观看:AWS re:Invent 2019: Deep dive into running Apache Spark on Amazon EMR (ANT308-R1) - YouTube