在组之间共享大型数据集

时间:2017-01-24 09:43:14

标签: share bigdata

有人可以建议在线服务在一群人中分享超过100GB的大文件吗? 具体来说,我们正在开发一个机器学习项目,该项目需要不断访问文件,但无需下载它们。对于这个项目,我们将使用python和R操作文件,我知道我可以上传并与Git共享代码,但是有一项服务(如docker?),你可以存储信息和“玩”。在线吗?

谢谢!

1 个答案:

答案 0 :(得分:0)

常见做法 - 将Git用于代码,使用S3代替数据。

您还可以查看开源工具DVC - http://dataversioncontrol.com -  它使用S3或GCP存储编排Git建模代码。它是为ML场景设计的。 DVC支持Python和R代码。