我将在相当大的数据集上运行ml模型。它约为15 gb,具有200列和430万行。我想知道AWS Sagemaker中此类数据集的最佳Notebook实例类型是什么。
答案 0 :(得分:3)
用于选择SageMaker托管的笔记本类型:
您是否打算在笔记本计算机上对内存中的数据进行所有预处理,或者打算通过外部服务来协调ETL?
如果您打算将数据集加载到笔记本实例的内存中以进行探索/预处理,则主要瓶颈在于确保实例具有足够的内存来存储数据集。这至少需要16gb类型( .xlarge )(ML实例类型available here的完整列表)。此外,根据预处理的计算强度以及所需的预处理完成时间,您可以选择计算优化的实例( c4,c5 )来加快处理速度。
对于培训工作,具体来说:
使用Amazon SageMaker SDK,您的训练数据将被加载并分发到训练集群,从而使您的训练工作与托管笔记本所运行的实例完全分开。
确定理想的训练实例类型将取决于您选择/训练的算法是内存,CPU还是IO绑定。由于您的数据集很可能会从S3加载到您的训练群集中,因此您为托管笔记本选择的实例将不会影响训练工作的速度。
广泛使用: 对于SageMaker笔记本电脑,最佳实践是将笔记本电脑用作“伪造者”或协调器,以调出外部服务(用于预处理的AWS Glue或Amazon EMR,用于培训的SageMaker,用于存储的S3等)。最好将它们视为短暂的计算/存储形式,以构建和启动您的实验管道。
这将使您能够更紧密地将计算,存储和托管资源/服务与对工作负载的需求进行配对,从而最终使您无需为潜在或未使用的资源付费,就可以物有所值。