通过R中的包发布数据是否优先?

时间:2015-02-09 18:38:09

标签: r package data-cleaning

在讨论如何在R中组织工作流程和项目时,通常建议使用package be written来记录&分享工作。我在想:是否使用R包发布&的任何优先级通过CRAN或其他渠道制作公开数据(以及相关材料,如元数据,自定义数据处理工具等)?我使用需要多个阶段清理的数据,例如基本删除拼写错误,基本记录匹配&自定义归因于缺失数据,随后是各种形式的重塑和特定分析的聚合。 R包似乎是记录和呈现数据的有用方式。用来生产的方法。主要缺点是投资时间。好处很多:我们实验室中未来学生的高标准文档,我未来的自我和其他潜在用户,完全可重复性,以及在收集更多数据时更新数据的平台。

某些背景信息:通过在线期刊托管的在线附录,将数据作为平面文件+元数据发布在我的领域越来越常见; third-party website也很受欢迎。数字的再现&通常可以进行分析,但数据有时会被高度按摩" &安培;处理中的步骤不能总是被复制,有时限制了进行替代分析的能力。我的顾问&我想发布15年纵向研究的前10年的数据。我已经需要清理我的数据处理脚本,以便传递给未来的学生/共同作者,这可能会使内部使用的包有用。

1 个答案:

答案 0 :(得分:2)

BioConductor做了很多:见this page about 'experiment data' packages

有趣的是,CRAN有一些数据包,例如EcDat

但总的来说,也许本地存档会更好吗?我碰巧把a recent package放到了可以帮助那里的CRAN上。