应用错误收集

大型数据集的机器学习开发工作流

时间：2018-04-20 15:54:51

标签： machine-learning workflow large-data

当您拥有300GB的大型数据集并且您的计算机只有250GB的内存时，您使用什么工作流程？

绝对在本地使用dev set，但是你是否将300gb放在S3存储桶上进行生产，这样当你不使用它时很容易关闭AWS，这样当它很容易提取模型时计算完成了吗？

我做了几个基本测量，平均需要5秒才能从s3加载文件。当文件处于更大的块时，S3的性能是否显着提高？

1 个答案:

答案 0 :(得分：1)

这取决于（像往常一样）。：）

您可以尝试在加载过程中过滤数据（损坏的示例，异常值等）。
如果您需要一次性获取所有数据，可以使用分布式计算（查看http://spark.apache.org - 一种流行的分布式计算框架），并使用一些机器学习库（例如https://spark.apache.org/mllib/）。< / LI>