为什么`as`方法删除了矢量名称,有没有办法解决它?

时间:2016-01-07 05:00:06

标签: r type-conversion

基本上,我正在尝试保留一个名为dates的特殊Date的向量,这在我的分析中有很多,比如2016年新年和2015年7月4日。我希望能够从名称而不是索引中提取健壮性,例如,dates["nyd"]获得新年和dates["ind"]获得7月4日。

我认为这很简单:

dates <- as.Date(c(ind = "2015-07-04", nyd = "2016-01-01"))

但是as.Date删除了名字:

dates
# [1] "2015-07-04" "2016-01-01"

它不像Date矢量无法命名(这很奇怪,因为它们基本上是专门解释的integer s):

setNames(dates, c("ind", "nyd"))
#          ind          nyd 
# "2015-07-04" "2016-01-01" 

不幸的是,没有办法直接声明Date向量(据我所知?),尤其是在不知道日期的基础整数值的情况下。

探索这一点,似乎这是as*类函数的标准做法:

as.integer(c(a = "123", b = "436"))
# [1] 123 436

as(c(a = 1, b = 2), "character")
# [1] "1" "2"

有这样的原因吗? ?as或我见过的任何其他帮助页面都没有提到姓名丢失。

更一般地说,有没有办法(使用as*之外的其他东西)来确保对象的名称不会在转换中丢失?

当然,一种方法是编写自定义函数,例如as.Date.named或使用相关方法创建自定义类as.named,但如果没有这样的东西已经到位,我会感到惊讶,因为看起来这应该是一个非常常见的操作。

如果重要,我在3.2.2。

2 个答案:

答案 0 :(得分:9)

确实不同的as.Date方法存在差异,这就是为什么(或者更确切地说是“如何”):

首先,你的例子:

> as.Date(c(ind = "2015-07-04", nyd = "2016-01-01"))
[1] "2015-07-04" "2016-01-01"

我们在这里使用方法as.Date.character

> as.Date.character
function (x, format = "", ...) 
{
    charToDate <- function(x) {
        xx <- x[1L]
        if (is.na(xx)) {
            j <- 1L
            while (is.na(xx) && (j <- j + 1L) <= length(x)) xx <- x[j]
            if (is.na(xx)) 
                f <- "%Y-%m-%d"
        }
        if (is.na(xx) || !is.na(strptime(xx, f <- "%Y-%m-%d", 
            tz = "GMT")) || !is.na(strptime(xx, f <- "%Y/%m/%d", 
            tz = "GMT"))) 
            return(strptime(x, f))
        stop("character string is not in a standard unambiguous format")
    }
    res <- if (missing(format)) 
        charToDate(x)
    else strptime(x, format, tz = "GMT")
    as.Date(res)
}
<bytecode: 0x19d3dff8>
<environment: namespace:base>

无论是否给出格式,您的向量都会传递给strptime,然后将其转换为类POSIXlt,然后再次传递给as.Date,但这次使用方法as.Date.POSIXlt这是:

> as.Date.POSIXlt
function (x, ...) 
.Internal(POSIXlt2Date(x))
<bytecode: 0x19d2df50>
<environment: namespace:base>

意味着最终用于转换为Date类的函数是POSIXlt2Date调用的C函数(快速查看文件names.c表明该函数是do_POSIXlt2D来自文件{{ 3}})。作为参考,这里是:

SEXP attribute_hidden do_POSIXlt2D(SEXP call, SEXP op, SEXP args, SEXP env)
{
    SEXP x, ans, klass;
    R_xlen_t n = 0, nlen[9];
    stm tm;

    checkArity(op, args);
    PROTECT(x = duplicate(CAR(args)));
    if(!isVectorList(x) || LENGTH(x) < 9)
    error(_("invalid '%s' argument"), "x");

    for(int i = 3; i < 6; i++)
    if((nlen[i] = XLENGTH(VECTOR_ELT(x, i))) > n) n = nlen[i];
    if((nlen[8] = XLENGTH(VECTOR_ELT(x, 8))) > n) n = nlen[8];
    if(n > 0) {
    for(int i = 3; i < 6; i++)
        if(nlen[i] == 0)
        error(_("zero-length component in non-empty \"POSIXlt\" structure"));
    if(nlen[8] == 0)
        error(_("zero-length component in non-empty \"POSIXlt\" structure"));
    }
    /* coerce relevant fields to integer */
    for(int i = 3; i < 6; i++)
    SET_VECTOR_ELT(x, i, coerceVector(VECTOR_ELT(x, i), INTSXP));

    PROTECT(ans = allocVector(REALSXP, n));
    for(R_xlen_t i = 0; i < n; i++) {
    tm.tm_sec = tm.tm_min = tm.tm_hour = 0;
    tm.tm_mday  = INTEGER(VECTOR_ELT(x, 3))[i%nlen[3]];
    tm.tm_mon   = INTEGER(VECTOR_ELT(x, 4))[i%nlen[4]];
    tm.tm_year  = INTEGER(VECTOR_ELT(x, 5))[i%nlen[5]];
    /* mktime ignores tm.tm_wday and tm.tm_yday */
    tm.tm_isdst = 0;
    if(tm.tm_mday == NA_INTEGER || tm.tm_mon == NA_INTEGER ||
       tm.tm_year == NA_INTEGER || validate_tm(&tm) < 0)
        REAL(ans)[i] = NA_REAL;
    else {
        /* -1 must be error as seconds were zeroed */
        double tmp = mktime00(&tm);
        REAL(ans)[i] = (tmp == -1) ? NA_REAL : tmp/86400;
    }
    }

    PROTECT(klass = mkString("Date"));
    classgets(ans, klass);
    UNPROTECT(3);
    return ans;
}

不幸的是,我对C的理解太有限了,不知道为什么属性在这里丢失了。我的猜测是它会在coerceVector操作期间或者当POSIXlt列表的每个元素被单独强制转换为整数时发生(如果这是1268-70行的情况)。

但是让我们看一下另一个as.Date方法,从主要犯罪者as.Date.POSIXct开始:

> as.Date.POSIXct
function (x, tz = "UTC", ...) 
{
    if (tz == "UTC") {
        z <- floor(unclass(x)/86400)
        attr(z, "tzone") <- NULL
        structure(z, class = "Date")
    }
    else as.Date(as.POSIXlt(x, tz = tz))
}
<bytecode: 0x19c268bc>
<environment: namespace:base>

有了这个,如果没有给出时区,或者时区是“UTC”,该函数只是操纵POSIXct列表来提取可以解析为Date对象的数据,从而不会丢失属性,但如果给出任何其他时区,则会将其转换为POSIXlt对象,因此会进一步传递到相同的POSIXlt2Date内部,最终会丢失其属性!事实上:

> as.Date(c(a = as.POSIXct("2016-01-01")), tz="UTC")
           a 
"2015-12-31" 

> as.Date(c(a = as.POSIXct("2016-01-01")), tz="CET")
[1] "2016-01-01"

最后,正如@Roland所说,as.Date.numeric确实保留了属性:

> as.Date.numeric
function (x, origin, ...) 
{
    if (missing(origin)) 
        stop("'origin' must be supplied")
    as.Date(origin, ...) + x
}
<bytecode: 0x568943d4>
<environment: namespace:base>

origin通过as.Date.character转换为日期,然后添加数字向量,从而保留属性:

> c(a=1) + 2
a 
3 

很自然地:

> c(a=16814) + as.Date("1970-01-01")
           a 
"2016-01-14"

在这种差异得到解决之前,我认为,保持属性的唯一解决方案是首先转换为POSIXct(但要注意时区问题)或数字,或者复制原始属性矢量:

> before <- c(ind = "2015-07-04", nyd = "2016-01-01")
> after <- as.Date(before)
> names(after) <- names(before)
> after
         ind          nyd 
"2015-07-04" "2016-01-01" 

答案 1 :(得分:2)

这不是问题的完整答案,但作为解决问题的方法,没有人提到mode函数。

vec <- c(a = "1", b = "2")
mode(vec) <- "integer"
vec
# returns:
# a b 
# 1 2 

我不确定你如何将这个应用于日期:

vec <- c(a = "2010-01-01")
mode(vec) <- "POSIXlt"

给出了一些东西,但它看起来不太正确。

您也可以使用

sapply(vec, as.whatever)

将保留名称。但是,我认为当你失去矢量化函数的优势时,这将会变慢。

第三,有:

structure(as.whatever(vec), names = names(vec))