我正在努力让一些好的做法发生,并且最近转向使用git进行版本控制。
我使用的一组脚本用于根据实验室数据生成测量不确定度估计值。相同的脚本用于不同的数据文件,并根据该数据生成一组文件和图形。核心脚本不经常更改。
我应该为每个新数据集创建一个分支吗?这有效吗? 我应该使用一组脚本,只需在每次使用后手动将输出文件重定位到一个单独的位置吗?
答案 0 :(得分:1)
这里有几个不同的方面应该被触及。我会尝试为每个人提供我的意见/建议。
这听起来像你应该制作自己的R包。如果你有一些核心功能不应该改变,最好将它们打包在一起。理想情况下,您可以设计函数,以便每个函数后面的代码都不需要修改,您只需更改参数(甚至可以开始探索R S3或S4类)。
自定义脚本,您可以为自己提供一个小插图,演示如何处理数据集。如果您想保存每个最终脚本,我可能会将它们存储在inst/examples
目录中,如果您不想在本地存储它们,则需要重新运行。
不,我通常不会建议有人把他们的数据放在github上。它也不是“高效”的。为新数据集创建新分支。创建另一个分支的想法是向现有项目添加新的方面/组件。简单地添加数据集和修改一些脚本是恕我直言,一个分支的使用不佳。
您应该如何处理数据取决于数据特征。这个数据大吗?它会从RDBMS中受益吗?您至少希望将其备份到本地实验室硬盘上。其次,如果您具有学术意识,一旦完成数据分析,您应该查看在线存储库,以便其他人也可以分析数据。如果这些数据集小,您也可以将它们放在data
目录的包中,如果它们不敏感。
不,我建议您使用核心函数/脚本来创建此部件的包装器并提供参数来指定输出路径。
我希望这些评论可以帮到你。