as.Date为月份名称“März”(行军)产生NA

时间:2014-02-23 18:38:04

标签: xml r date

我有一个带日期的刮字符向量。我的问题:使用as.Date()时,包含月份名称“März”(=德语中的“march”)的每个日期都为NA。这是为什么?

这是一个(希望可重复的)例子:

require(RCurl)
require(XML)
doc <- htmlParse(getURL("http://www.amazon.de/product-reviews/3836218984/?ie=UTF8&pageNumber=5&showViewpoints=0&sortBy=byRankDescending"), 
                 encoding="UTF-8")
(dates <- xpathSApply(doc, "//div/span[2]/nobr", xmlValue))
# [1] "12. Februar 2009"   "12. November 2006"  "19. März 2010"     
# [4] "30. Juni 2007"      "7. März 2006"       "19. März 2007"     
# [7] "22. Januar 2006"    "24. September 2005" "15. Februar 2012"  
# [10] "28. März 2007" 

Sys.setlocale("LC_TIME", "German") # on Windows, see ?Sys.setlocale
as.Date(dates,  "%d. %B %Y")
# [1] "2009-02-12" "2006-11-12" NA           "2007-06-30" NA          
# [6] NA           "2006-01-22" "2005-09-24" "2012-02-15" NA 

关于下一步尝试的任何想法?

请注意,如果我在dput ed和复制/粘贴的字符向量上应用相同内容,那么一切都很好:

dates <- c("12. Februar 2009", "12. November 2006", "19. März 2010", "30. Juni 2007", 
           "7. März 2006", "19. März 2007", "22. Januar 2006", "24. September 2005", 
           "15. Februar 2012", "28. März 2007")
as.Date(dates,  "%d. %B %Y")
# [1] "2009-02-12" "2006-11-12" "2010-03-19" "2007-06-30"
# [5] "2006-03-07" "2007-03-19" "2006-01-22" "2005-09-24"
# [9] "2012-02-15" "2007-03-28"

为了完整性我的会话信息:

R version 3.0.2 (2013-09-25)
Platform: x86_64-w64-mingw32/x64 (64-bit)

locale:
[1] LC_COLLATE=German_Germany.1252  LC_CTYPE=German_Germany.1252    LC_MONETARY=German_Germany.1252
[4] LC_NUMERIC=C                    LC_TIME=German_Germany.1252    

attached base packages:
[1] stats     graphics  grDevices utils     datasets  methods   base     

loaded via a namespace (and not attached):
[1] tools_3.0.2

3 个答案:

答案 0 :(得分:5)

我可以在Windows 7 x64上重现这一点。 R和Windows如何与字符编码进行交互有很多问题,我不会假装理解它们。在您的情况下,只需在转换为latin1之前转换为Date编码即可。

as.Date(iconv(dates,from='UTF-8',to='latin1'),'%d. %B %Y')
#  [1] "2009-02-12" "2006-11-12" "2010-03-19" "2007-06-30" "2006-03-07" "2007-03-19"
#  [7] "2006-01-22" "2005-09-24" "2012-02-15" "2007-03-28"

可能有办法让as.Date识别Windows中的不同编码,但我不知道。

答案 1 :(得分:3)

我也有一个非常相似的问题。 我将编写我发现希望帮助用户使用意大利本地系统设置的解决方案

 Sys.setlocale("LC_TIME")

[1]&#34; Italian_Italy.1252&#34;

我必须将因子转换为日期:因素是

levels(dates)

[1]&#34; 1。 2012年6月&#34; &#34; 11。 2012年9月&#34; &#34; 19。 2012年10月&#34; &#34; 20。 2013年3月&#34; &#34; 28。 2012年6月&#34; [6]&#34; 7。可以。 2012&#34;

这在所有月份的转换中产生了NA,但是3月份(因为缩写在意大利语中是相同的)

 head(as.Date(dates, format= "%d. %b. %Y"))

[1] NA NA NA NA NA NA

 summary(GEM_variability$date)

    Min.      1st Qu.       Median         Mean      3rd Qu.         Max. 

&#34; 2013年3月20日&#34; &#34; 2013年3月20日&#34; &#34; 2013年3月20日&#34; &#34; 2013年3月20日&#34; &#34; 2013年3月20日&#34; &#34; 2013年3月20日&#34;         NA&#39; S        &#34; 559&#34;

我在?strftime

的帮助文件中找到了解决方案
lct <- Sys.getlocale("LC_TIME"); Sys.setlocale("LC_TIME", "C")
dates<- as.Date(date, format="%d. %b. %Y")
#dates<- strptime(date, format="%d. %b. %Y")
Sys.setlocale("LC_TIME", lct)

答案 2 :(得分:1)

这是一个很长的评论/答案扩展名。

我遇到了几乎相同的问题。

例如,使用

months <- c("JAN", "FEB", "MAR", "APR", "MAY", "JUN", 
            "JUL", "AUG", "SEP", "OCT", "NOV", "DEC")
for (month in months) print(
     as.Date(iconv(paste("01", month, "2014", sep=""), 
                  from='UTF-8', to='latin1'), "%d%b%Y"))

我得到了

[1] "2014-01-01"
[1] "2014-02-01"
[1] NA
[1] "2014-04-01"
[1] NA
[1] "2014-06-01"
[1] "2014-07-01"
[1] "2014-08-01"
[1] "2014-09-01"
[1] NA
[1] "2014-11-01"
[1] "2014-12-01"

所以我没有3月,5月和10月的日期(使用iconv()或不与特定参数无关。)

解决了什么问题:

Sys.setlocale("LC_TIME", "en_US.UTF-8")

然后我正确地得到了所有东西(iconv()没有必要)。