git:管理输入数据测试实践

时间:2014-02-20 20:11:33

标签: git testing test-data

使用git我管理python脚本(script.py)的更改和一组测试,此测试使用一些文本输入数据文件,具有此目录结构

script.py
tests/
  test_01.py
  test_02.py
  data/
   data_file01
   data_file02
   ...

但是,一些输入数据文件开始非常大(> 1MB)。

使用git,管理输入数据以进行测试是一个很好的方法吗?

...也许允许在线存储,但是,如何保留和检查输入数据文件的更改? (建议?)

...或者可能使用像setuptools这样的库来检查输入数据测试是否不存在并下载它,但是,如何保留并检查输入数据文件的更改?

修改

现在我将数据测试备份在压缩文件中,并在云盘(dropbox,google驱动器等)中使用相应的提交名称,并在提交后挂钩中添加一行

commit_name=$(git rev-parse HEAD)
fecha=$(date +%Y%m%d)
7z a $CLOUD_DISK"/data_test/$fecha"_"$commit_name".7z data/* -r

(我更喜欢7z over zip,因为我得到的是一个较小尺寸的压缩文件)

$CLOUD_DISK变量在.bashrc中定义。

编辑2

我开始以更完整的方式解决我的问题。

https://github.com/juanpabloaj/gitdata

1 个答案:

答案 0 :(得分:0)

我会将数据保存在您的仓库中。您有权在发生问题时跟踪输入数据的变化。否则,也许像校验和一样创建数据的哈希值?