应用错误收集

用于处理机器学习的大型数据集的设计模式

时间：2017-08-16 23:20:16

标签： python design-patterns

我目前正在尝试从网站上抓取数据并从中构建大量（并且可能随时间增长）数据集。我想知道在处理，保存和加载大型数据集时是否有任何好的做法。

更具体地说，当我想保存的数据集太大而无法存储在RAM中，然后一次写入磁盘时，我该怎么办？并且一次写一个数据点效率太低？有没有比写入一次中等规模批量更聪明的方法？

感谢您的时间！

1 个答案:

答案 0 :(得分：2)

当然，请使用数据库。

您应该查看MongoDB或elasticSearch，因为您存储的内容似乎是文档而非关系数据。

https://www.mongodb.com/

https://www.elastic.co/