是否有记录数据框架的标准方法?

时间:2012-07-05 16:08:09

标签: r dataframe

给定一个数据框DF,使用save()将DF保存为R对象并与同事共享很简单。但是,通常需要附加一份单独的文档来解释精确的列定义。是否有(标准/通用)方法将此信息包含在对象中?

如果我们为DF构建了一个包,我们可以创建一个帮助页面来解释所有这些细节,比如内置数据集。因此,数据和解释始终可用,我们只需共享一个包源文件。但是,构建一个包似乎过度杀死了这个问题。 (作为附带好处,我们将获得对数据集的版本控制,因为更改会增加包版本号。)

Hmisc包中包含label()函数,该函数向对象添加新属性。包含用于子集化/创建/ etc data.frames的相关方法来传播新属性(因为大多数函数通常会删除属性)。

设置属性是编写包的明显替代方法,我们可以添加任意命名的属性。

一个简短的例子:

DF <-
structure(list(Gender = structure(c(1L, 1L, 1L, 2L, 2L, 2L), .Label = c("Female",
"Male"), class = "factor"), Date = structure(c(15518, 15524,
15518, 15526, 15517, 15524), class = "Date"), Dose = c(15, 10,
11, 11, 12, 14), Reaction = c(7.97755180189919, 11.7033586194156,
9.959784869289, 6.0170950790238, 1.92480908119655, 7.70265419443507
)), .Names = c("Gender", "Date", "Dose", "Reaction"), row.names = c(NA,
-6L), class = "data.frame")

library(Hmisc)

label(DF$Reaction) <- "Time to react to eye-dot test, in seconds, recorded electronically"

# or we could set our own attributes

attr(DF$Date,"Description") <- "Date of experiment. Note, results are collected weekly from test centres"

# Since Hmisc adds class "labelled" to data.frame and impelments
# the appropriate methods, the formed is retained on subsetting 
# (not that this is feature is wanted)

DF.mini <- DF[ DF$Gender=="Male",]


# compare
str(DF)      # Not quite sure why str() prints the label attribute but not the Desciptions
str(DF.mini) # we retain the label attribute

attributes(DF$Date)
attributes(DF.mini$Date) # we lose the Description attribute

所以我的问题:

  1. 人们是否在其对象中包含额外信息(我的示例是数据框,但适用于所有R对象),将所有相关信息保存在一个位置?
  2. 如果是,怎么样?
  3. 好奇,为什么str()会打印label属性,我相信Hmisc包已经在某个地方添加了另一个函数/方法,但是看不清楚原因 - 有人可以解释一下吗?

1 个答案:

答案 0 :(得分:6)

有一个基本功能:comment,可以分配或检索存储在属性中的文本。

(我不明白为什么str打印标签的问题。str不应该显示所有(非名称,非类,非rowname)属性吗? )