使用git我管理python脚本(script.py
)的更改和一组测试,此测试使用一些文本输入数据文件,具有此目录结构
script.py
tests/
test_01.py
test_02.py
data/
data_file01
data_file02
...
但是,一些输入数据文件开始非常大(> 1MB)。
使用git,管理输入数据以进行测试是一个很好的方法吗?
...也许允许在线存储,但是,如何保留和检查输入数据文件的更改? (建议?)
...或者可能使用像setuptools
这样的库来检查输入数据测试是否不存在并下载它,但是,如何保留并检查输入数据文件的更改?
现在我将数据测试备份在压缩文件中,并在云盘(dropbox,google驱动器等)中使用相应的提交名称,并在提交后挂钩中添加一行
commit_name=$(git rev-parse HEAD)
fecha=$(date +%Y%m%d)
7z a $CLOUD_DISK"/data_test/$fecha"_"$commit_name".7z data/* -r
(我更喜欢7z over zip,因为我得到的是一个较小尺寸的压缩文件)
$CLOUD_DISK
变量在.bashrc
中定义。
我开始以更完整的方式解决我的问题。
答案 0 :(得分:0)
我会将数据保存在您的仓库中。您有权在发生问题时跟踪输入数据的变化。否则,也许像校验和一样创建数据的哈希值?