使用parse_date_time将dmy格式与dmY一起解析

时间:2013-10-01 22:30:22

标签: r date lubridate

我有一个日期字符表示的向量,其中格式大多为dmY(例如27-09-2013),dmy(例如27-09-13),偶尔还有一些{{ 1}}或b个月。因此,包B中的parse_date_time“允许用户指定多个格式顺序来处理异构的日期 - 时间字符表示”对我来说可能是一个非常有用的功能。

但是,当lubridateparse_date_time日期一起出现时,dmy似乎有解析dmY日期的问题。单独解析dmydmy以及与我相关的其他格式时,它可以正常工作。在对@ Peyton的回答here的评论中也注意到了这种模式。建议快速修复,但我想问一下是否可以在lubridate中处理它。

在这里,我展示了一些示例,其中我尝试使用dmy格式和其他一些格式解析日期,并相应地指定orders

library(lubridate)
# version: lubridate_1.3.0

# regarding how date format is specified in 'orders':
# examples in ?parse_date_time
# parse_date_time(x, "ymd")
# parse_date_time(x, "%y%m%d")
# parse_date_time(x, "%y %m %d")
# these order strings are equivalent and parses the same way
# "Formatting orders might include arbitrary separators. These are discarded"

# dmy date only
parse_date_time(x = "27-09-13", orders = "d m y")
# [1] "2013-09-27 UTC"
# OK

# dmy & dBY
parse_date_time(c("27-09-13", "27 September 2013"), orders = c("d m y", "d B Y"))
# [1] "2013-09-27 UTC" "2013-09-27 UTC"
# OK

# dmy & dbY
parse_date_time(c("27-09-13", "27 Sep 2013"), orders = c("d m y", "d b Y"))
# [1] "2013-09-27 UTC" "2013-09-27 UTC"
# OK

# dmy & dmY
parse_date_time(c("27-09-13", "27-09-2013"), orders = c("d m y", "d m Y"))
# [1] "0013-09-27 UTC" "2013-09-27 UTC"
# not OK

# does order of the date components matter?
parse_date_time(c("2013-09-27", "13-09-13"), orders = c("Y m d", "y m d"))
# [1] "2013-09-27 UTC" "0013-09-27 UTC"
# no

select_formats参数怎么样?很抱歉这样说,但我很难理解帮助文件的这一部分。并且search for select_formats on SO:0结果。尽管如此,这一部分似乎仍然相关:“默认情况下,选择格式最多的格式(%),%Y计为2.5个tockens(因此它可以优先于%y%m)。”所以我(拼命地)尝试了一些额外的dmy日期:

parse_date_time(c("27-09-2013", rep("27-09-13", 10)), orders = c("d m y", "d m Y"))
# not OK. Tried also 100 dmy dates.

# does order in the vector matter?
parse_date_time(c(rep("27-09-13", 10), "27-09-2013"), orders = c("d m y", "d m Y"))
# no

然后我检查了guess_formats函数(也在lubridate中)与dmy一起处理dmY的方式:

guess_formats(c("27-09-13", "27-09-2013"), c("dmy", "dmY"), print_matches = TRUE)
#                   dmy        dmY       
# [1,] "27-09-13"   "%d-%m-%y" ""        
# [2,] "27-09-2013" "%d-%m-%Y" "%d-%m-%Y"
# OK   

来自?guess_formatsy also matches Y。来自?parse_date_timey* Year without century (00–99 or 0–99). Also matches year with century (Y format)。所以我试过了:

guess_formats(c("27-09-13", "27-09-2013"), c("dmy"), print_matches = TRUE)
#                   dmy       
# [1,] "27-09-13"   "%d-%m-%y"
# [2,] "27-09-2013" "%d-%m-%Y"
# OK

因此,guess_format似乎能够与dmy一起处理dmY。但我怎么能告诉parse_date_time这样做呢?提前感谢您的任何意见或帮助。

更新 我在lubridate bug report上发布了这个问题,得到了@vitoshka的快速回复:“这是一个错误”。

2 个答案:

答案 0 :(得分:2)

它看起来像一个bug。我不确定你应该联系维护者。

构建包源并在此内部函数中更改一行(我将which.max替换为wich.min):

.select_formats <-   function(trained){
  n_fmts <- nchar(gsub("[^%]", "", names(trained))) + grepl("%Y", names(trained))*1.5
  names(trained[ which.min(n_fmts) ]) ## replace which.max  by which.min
}

似乎纠正了这个问题。坦率地说,我不知道为什么会这样,但我想这是一种排名..

parse_date_time(c("27-09-13", "27-09-2013"), orders = c("d m y", "d m Y"))
[1] "2013-09-27 UTC" "2013-09-27 UTC"

parse_date_time(c("2013-09-27", "13-09-13"), orders = c("Y m d", "y m d"))
[1] "2013-09-27 UTC" "2013-09-13 UTC"

答案 1 :(得分:1)

这实际上是故意的。我现在回想起来。假设如果在同一向量中有01-02-1845和01-02-03形式的日期,那么它的含义可能是01-02-0003。它还避免了与不同世纪的日期混淆。你不知道17-05-13是指二十世纪还是二十一世纪。

这个决定可能也有技术原因,但我现在不记得了。

.select_formats论证是要走的路:

my_select <-   function(trained){
  n_fmts <- nchar(gsub("[^%]", "", names(trained))) +
    grepl("%y", names(trained))*1.5
  names(trained[ which.max(n_fmts) ])
}

parse_date_time(c("27-09-13", "27-09-2013"), "dmy", select_formats = my_select)
## [1] "2013-09-27 UTC" "2013-09-27 UTC"

select_formats应返回要按顺序应用于输入字符向量的格式。在上面的示例中,您优先考虑%y格式。

我将此示例添加到文档中。