分析项目的版本控制

时间:2015-06-11 13:05:02

标签: git version-control analytics

我发现了一些关于如何使用GIT管理数据科学项目的事情,但我没有找到关于如何管理一组项目的事情。

在90%的情况下,我一个人工作,在一个月内,很多人都让我检查:

  • 我们的营销业务表现
  • 对圣诞节等特殊时期的销售的影响。
  • 我们客户的集群
  • 简单的预测模型(流失,......)

以下是我单个项目的典型工作流程:

  1. 在SQL中准备数据
  2. 在R / Python中进行描述性和预测性分析。我经常使用我自己更新的代码库
  3. 在Markdown或powerpoint演示文稿中创建输出结果。
  4. 以下是每个项目的文件夹组织:

    1. 数据
      • 处理
    2. R脚本

    3. Python脚本

    4. 输出(数字,降价,powerpoint,......)

    5. 我用于所有项目的R和Python中的两个代码库。

      问题:在这种情况下,最佳策略是什么?

      1. 包含所有项目的单个存储库,因为库在多个项目之间共享?
      2. 如果是,可以在同一个存储库中拥有十几个分支,例如:

        • R_library_prod
        • R_library_dev
        • Python_library_prod
        • Python_library_dev
        • clustering_2015_prod
        • clustering_2015_dev
        • christmas_sales_analysis_prod
        • christmas_sales_analysis_dev
        • 等等

          1. 每个项目的存储库? (可能只有2个分支:prod和dev)

        如果是,如何管理R和Python库的更新?我是否应该为他们提供独特的仓库并在分析项目存储库中手动更新库?

0 个答案:

没有答案