带有大静态文件的Git

时间:2019-04-14 21:45:44

标签: git large-files git-lfs

我有一些要与分析代码一起保存的数据集。有时数据是二进制的,有时是文本,即csv文件。数据集可能会变大(在下面有更多详细信息),所以我的第一个倾向是使用git LFS将数据集与代码存储库一起存储。但是,文件永远不会更改。

出于两个原因,我想将数据集保留在git中。

  1. 过去,我不小心删除或修改了耗时或无法重新收集的数据。
  2. 我希望能够同时获取代码和数据,以简化返回项目的过程。

我的大多数数据集的文件大小通常在10MB到1GB之间  数据集范围从1GB至100GB。我最大的数据集包含最大100GB的文件,总大小超过2TB。但是,我猜测git对于这些超大型集合可能根本不起作用。

我想知道

  • 如果我的数据集没有更改,对它们使用git lfs是否有意义?在我看来,git lfs的最大好处(不必在存储库中保留不同版本的大二进制文件的历史)似乎无济于事,因为给定文件只有一个版本。
  • 我偶尔会看到要删除数据集的情况,lfs在这种用例下会更好吗?
  • 是否有更好的方法来做我想做的事情?

谢谢!

0 个答案:

没有答案