基本上,我正在尝试保留一个名为dates
的特殊Date
的向量,这在我的分析中有很多,比如2016年新年和2015年7月4日。我希望能够从名称而不是索引中提取健壮性,例如,dates["nyd"]
获得新年和dates["ind"]
获得7月4日。
我认为这很简单:
dates <- as.Date(c(ind = "2015-07-04", nyd = "2016-01-01"))
但是as.Date
删除了名字:
dates
# [1] "2015-07-04" "2016-01-01"
它不像Date
矢量无法命名(这很奇怪,因为它们基本上是专门解释的integer
s):
setNames(dates, c("ind", "nyd"))
# ind nyd
# "2015-07-04" "2016-01-01"
不幸的是,没有办法直接声明Date
向量(据我所知?),尤其是在不知道日期的基础整数值的情况下。
探索这一点,似乎这是as*
类函数的标准做法:
as.integer(c(a = "123", b = "436"))
# [1] 123 436
as(c(a = 1, b = 2), "character")
# [1] "1" "2"
有这样的原因吗? ?as
或我见过的任何其他帮助页面都没有提到姓名丢失。
更一般地说,有没有办法(使用as*
之外的其他东西)来确保对象的名称不会在转换中丢失?
当然,一种方法是编写自定义函数,例如as.Date.named
或使用相关方法创建自定义类as.named
,但如果没有这样的东西已经到位,我会感到惊讶,因为看起来这应该是一个非常常见的操作。
如果重要,我在3.2.2。
答案 0 :(得分:9)
确实不同的as.Date
方法存在差异,这就是为什么(或者更确切地说是“如何”):
首先,你的例子:
> as.Date(c(ind = "2015-07-04", nyd = "2016-01-01"))
[1] "2015-07-04" "2016-01-01"
我们在这里使用方法as.Date.character
:
> as.Date.character
function (x, format = "", ...)
{
charToDate <- function(x) {
xx <- x[1L]
if (is.na(xx)) {
j <- 1L
while (is.na(xx) && (j <- j + 1L) <= length(x)) xx <- x[j]
if (is.na(xx))
f <- "%Y-%m-%d"
}
if (is.na(xx) || !is.na(strptime(xx, f <- "%Y-%m-%d",
tz = "GMT")) || !is.na(strptime(xx, f <- "%Y/%m/%d",
tz = "GMT")))
return(strptime(x, f))
stop("character string is not in a standard unambiguous format")
}
res <- if (missing(format))
charToDate(x)
else strptime(x, format, tz = "GMT")
as.Date(res)
}
<bytecode: 0x19d3dff8>
<environment: namespace:base>
无论是否给出格式,您的向量都会传递给strptime
,然后将其转换为类POSIXlt,然后再次传递给as.Date
,但这次使用方法as.Date.POSIXlt
这是:
> as.Date.POSIXlt
function (x, ...)
.Internal(POSIXlt2Date(x))
<bytecode: 0x19d2df50>
<environment: namespace:base>
意味着最终用于转换为Date类的函数是POSIXlt2Date
调用的C函数(快速查看文件names.c
表明该函数是do_POSIXlt2D
来自文件{{ 3}})。作为参考,这里是:
SEXP attribute_hidden do_POSIXlt2D(SEXP call, SEXP op, SEXP args, SEXP env)
{
SEXP x, ans, klass;
R_xlen_t n = 0, nlen[9];
stm tm;
checkArity(op, args);
PROTECT(x = duplicate(CAR(args)));
if(!isVectorList(x) || LENGTH(x) < 9)
error(_("invalid '%s' argument"), "x");
for(int i = 3; i < 6; i++)
if((nlen[i] = XLENGTH(VECTOR_ELT(x, i))) > n) n = nlen[i];
if((nlen[8] = XLENGTH(VECTOR_ELT(x, 8))) > n) n = nlen[8];
if(n > 0) {
for(int i = 3; i < 6; i++)
if(nlen[i] == 0)
error(_("zero-length component in non-empty \"POSIXlt\" structure"));
if(nlen[8] == 0)
error(_("zero-length component in non-empty \"POSIXlt\" structure"));
}
/* coerce relevant fields to integer */
for(int i = 3; i < 6; i++)
SET_VECTOR_ELT(x, i, coerceVector(VECTOR_ELT(x, i), INTSXP));
PROTECT(ans = allocVector(REALSXP, n));
for(R_xlen_t i = 0; i < n; i++) {
tm.tm_sec = tm.tm_min = tm.tm_hour = 0;
tm.tm_mday = INTEGER(VECTOR_ELT(x, 3))[i%nlen[3]];
tm.tm_mon = INTEGER(VECTOR_ELT(x, 4))[i%nlen[4]];
tm.tm_year = INTEGER(VECTOR_ELT(x, 5))[i%nlen[5]];
/* mktime ignores tm.tm_wday and tm.tm_yday */
tm.tm_isdst = 0;
if(tm.tm_mday == NA_INTEGER || tm.tm_mon == NA_INTEGER ||
tm.tm_year == NA_INTEGER || validate_tm(&tm) < 0)
REAL(ans)[i] = NA_REAL;
else {
/* -1 must be error as seconds were zeroed */
double tmp = mktime00(&tm);
REAL(ans)[i] = (tmp == -1) ? NA_REAL : tmp/86400;
}
}
PROTECT(klass = mkString("Date"));
classgets(ans, klass);
UNPROTECT(3);
return ans;
}
不幸的是,我对C的理解太有限了,不知道为什么属性在这里丢失了。我的猜测是它会在coerceVector
操作期间或者当POSIXlt列表的每个元素被单独强制转换为整数时发生(如果这是1268-70行的情况)。
但是让我们看一下另一个as.Date
方法,从主要犯罪者as.Date.POSIXct
开始:
> as.Date.POSIXct
function (x, tz = "UTC", ...)
{
if (tz == "UTC") {
z <- floor(unclass(x)/86400)
attr(z, "tzone") <- NULL
structure(z, class = "Date")
}
else as.Date(as.POSIXlt(x, tz = tz))
}
<bytecode: 0x19c268bc>
<environment: namespace:base>
有了这个,如果没有给出时区,或者时区是“UTC”,该函数只是操纵POSIXct
列表来提取可以解析为Date对象的数据,从而不会丢失属性,但如果给出任何其他时区,则会将其转换为POSIXlt
对象,因此会进一步传递到相同的POSIXlt2Date
内部,最终会丢失其属性!事实上:
> as.Date(c(a = as.POSIXct("2016-01-01")), tz="UTC")
a
"2015-12-31"
> as.Date(c(a = as.POSIXct("2016-01-01")), tz="CET")
[1] "2016-01-01"
最后,正如@Roland所说,as.Date.numeric
确实保留了属性:
> as.Date.numeric
function (x, origin, ...)
{
if (missing(origin))
stop("'origin' must be supplied")
as.Date(origin, ...) + x
}
<bytecode: 0x568943d4>
<environment: namespace:base>
origin
通过as.Date.character
转换为日期,然后添加数字向量,从而保留属性:
> c(a=1) + 2
a
3
很自然地:
> c(a=16814) + as.Date("1970-01-01")
a
"2016-01-14"
在这种差异得到解决之前,我认为,保持属性的唯一解决方案是首先转换为POSIXct(但要注意时区问题)或数字,或者复制原始属性矢量:
> before <- c(ind = "2015-07-04", nyd = "2016-01-01")
> after <- as.Date(before)
> names(after) <- names(before)
> after
ind nyd
"2015-07-04" "2016-01-01"
答案 1 :(得分:2)
这不是问题的完整答案,但作为解决问题的方法,没有人提到mode
函数。
vec <- c(a = "1", b = "2")
mode(vec) <- "integer"
vec
# returns:
# a b
# 1 2
我不确定你如何将这个应用于日期:
vec <- c(a = "2010-01-01")
mode(vec) <- "POSIXlt"
给出了一些东西,但它看起来不太正确。
您也可以使用
sapply(vec, as.whatever)
将保留名称。但是,我认为当你失去矢量化函数的优势时,这将会变慢。
第三,有:
structure(as.whatever(vec), names = names(vec))