我发现了一些关于如何使用GIT管理数据科学项目的事情,但我没有找到关于如何管理一组项目的事情。
在90%的情况下,我一个人工作,在一个月内,很多人都让我检查:
以下是我单个项目的典型工作流程:
以下是每个项目的文件夹组织:
R脚本
Python脚本
输出(数字,降价,powerpoint,......)
我用于所有项目的R和Python中的两个代码库。
问题:在这种情况下,最佳策略是什么?
如果是,可以在同一个存储库中拥有十几个分支,例如:
R_library_prod
R_library_dev
Python_library_prod
Python_library_dev
clustering_2015_prod
clustering_2015_dev
christmas_sales_analysis_prod
christmas_sales_analysis_dev
等等
如果是,如何管理R和Python库的更新?我是否应该为他们提供独特的仓库并在分析项目存储库中手动更新库?