我正在从手动转为自动化流程,需要帮助。
我有一个带有csv数据文件的目录,这些文件可以提供一组R例程进行分析。该目录以创建日期命名,但不是目录中的所有文件都已更新
目录(例如,数据2012-11-26)总是有七个要素:
BW_Weekly.csv
BW_Monthly.csv
BW_Yearly.csv
CLR_Weekly.csv
CLR_Monthly.csv
CLR_Yearly.csv
Special_Weekly.csv
其他约束 - 我有时必须回到之前的日期目录来分析旧的集合。 “每周”文件每周更新一次,“每月”和“每年”文件每月更新一次。
我今天的工作流程是:每周一通过电子邮件接收每周文件,下个月第一个星期一收到月/年文件(即下周一,我将收到月/年文件中的11月更新。具有星期一日期的新目录。将当前每月/每年文件复制到该目录。将每周文件从电子邮件保存到该新目录。使用新目录名称更新R分析文件中的变量名称。运行(源)分析,情节结果。非常手册。
我试图找出如何使用git(也许是一个或两个makefile规则)在更自动化的过程中执行此操作。 - 你有所了解的建议 -
我有点混乱的想法是使用git在文件到达时提交/标记文件。然后使用makefile规则1)检出最新的数据文件2)运行/绘制结果为pdf 3)查看pdf进行分析。加上我可以一遍又一遍地停止编辑文件......
这将允许一些事情:
git checkout data2012-11-26 (or whatever Monday date I want)
build all (in RStudio Build Tab ideally)
文件很大 - 每个csv文件大约15-20MB。 git可以处理吗? 并且有人可以帮助制定可以完成这项工作的制定规则(除了最低限度的makefile规则之外我还不擅长)...甚至可以进行结账吗?
开放使用新的文件命名约定 - 如果您认为这会有所帮助。
答案 0 :(得分:1)
我确实会建议为此做好准备。我做了一些非常相似的事情,并且已经尝试了使分析具有可重复性,模块化和自动化的最佳方法。我最近发布了this给github(因此我在搜索时找到了这篇文章)。这里没有硬性和快速的答案,但这里有一些想法。
然后你可以覆盖任何新的数据文件,只需运行make来更新所有内容。运行旧分析很简单,就像检查该分支并再次运行分析一样。