大型数据集的机器学习开发工作流

时间:2018-04-20 15:54:51

标签: machine-learning workflow large-data

当您拥有300GB的大型数据集并且您的计算机只有250GB的内存时,您使用什么工作流程?

绝对在本地使用dev set,但是你是否将300gb放在S3存储桶上进行生产,这样当你不使用它时很容易关闭AWS,这样当它很容易提取模型时计算完成了吗?

我做了几个基本测量,平均需要5秒才能从s3加载文件。当文件处于更大的块时,S3的性能是否显着提高?

1 个答案:

答案 0 :(得分:1)

这取决于(像往常一样)。 :)

  1. 您可以尝试在加载过程中过滤数据(损坏的示例,异常值等)。
  2. 如果您需要一次性获取所有数据,可以使用分布式计算(查看http://spark.apache.org - 一种流行的分布式计算框架),并使用一些机器学习库(例如https://spark.apache.org/mllib/)。< / LI>