R包,数据集的大小与代码相对应

时间:2014-07-25 08:40:35

标签: r dataset package

我正在设计一个 R 包(http://github.com/bquast/decompr)来运行Wang-Wei-Zhu导出分解(http://www.nber.org/papers/w19677)。

完整的包装只有大约79千字节。

我想提供一个示例数据集,特别是因为输入对象有点复杂。相关的真实世界数据集可从http://www.wiod.org获得,但.Rdata对象的总大小将达到约1兆字节。

因此,我的问题是,包含比包本身大得多的相关数据集会是一个好主意吗?

1 个答案:

答案 0 :(得分:1)

代码通常不如数据小得多。但是,我不会是唯一一个建议以下内容的人(特别是如果你想提交给CRAN):

  • 查阅R Extensions手册。特别是,请确保数据文件采用压缩格式,并在适用时使用LazyData
  • CRAN Repository Policies对数据文件也有一两件事要说。文档和数据的最大硬盘容量为5MB。如果代码可能会更改而数据不可能,请考虑创建单独的数据包。
  • PDF documentation也可以分发,因此可以编写一个“插图”,它不是在捆绑包时通过运行代码构建的,而是说明使用静态代码片段,显示如何下载数据。禁止在插图本身中下载,因为手册指出构建它所需的所有文件必须在本地文件系统上可用。

我还要问,是否包含一部分数据不足以说明包的使用。

最后,如果您不打算提交到软件包存储库,我无法想象兆字节下载会违反礼节。