使用seq在r中子集奇数行

时间:2014-07-12 13:09:26

标签: r seq

希望这不是一个太新手的问题。

我正在尝试从可从此处下载的GDP UK数据集中对行进行子集化: http://www.ons.gov.uk/ons/site-information/using-the-website/time-series/index.html

数据框看起来或多或少是这样的:

       X    ABMI
1   1948    283297
2   1949    293855
3   1950    304395

...

300 2013 Q2 381318
301 2013 Q3 384533
302 2013 Q4 387138
303 2014 Q1 390235

问题是,对于我的分析,我只需要2004 - 2013年的数据,而且我对每年的一个结果感兴趣,所以我想从位于263和303行之间的数据集中获取每四行。

在以下网站的基础上:

https://stat.ethz.ch/pipermail/r-help/2008-June/165634.html (加上一些由于链接限制而无法引用的内容)

我尝试了以下内容,每次都会收到一些错误消息:

> GDPUKodd <- seq(GDPUKsubset[263:302,], by = 4)
    Error in seq.default(GDPUKsubset[263:302, ], by = 4) : 
  argument 'from' musi mieæ d³ugoœæ 1

> OddGDPUK <- GDPUK[seq(263, 302, by = 4)]
    Error in `[.data.frame`(GDPUK, seq(263, 302, by = 4)) : 
  undefined columns selected

> OddGDPUKprim <- GDPUK[seq(263:302), by = 4]
Error in `[.data.frame`(GDPUK, seq(263:302), by = 4) : 
  unused argument (by = 4)

> OddGDPUK <- GDPUK[seq(from=263, to=302, by = 4)]
Error in `[.data.frame`(GDPUK, seq(from = 263, to = 302, by = 4)) : 
  undefined columns selected

> OddGDPUK <- GDPUK[seq(from=GDPUK[263,] to=GDPUK[302,] by = 4)]
Error: unexpected symbol in "OddGDPUK <- GDPUK[seq(from=GDPUK[263,] to"

> GDPUK[seq(1,nrows(GDPUK),by=4),]
Error in seq.default(1, nrows(GDPUK), by = 4) : 
  could not find function "nrows"

简而言之:帮助!

2 个答案:

答案 0 :(得分:1)

您可以根据值使用subset函数和适当的过滤器,而不是尝试根据行ID提取数据。

例如,如果您的数据框的year列的值为1948 ... 2014,而quarter列的值为Q1..Q4,那么您可以使用以下内容获取正确的子集:

subset(data, year >= 2004 & year <= 2013 & quarter == 'Q1')

<强> UDATE

我看到您的源数据是,没有正确的年份和季度列。你可以像这样清理它:

x <- read.csv('http://www.ons.gov.uk/ons/datasets-and-tables/downloads/csv.csv?dataset=pgdp&cdid=ABMI')
x$ABMI <- as.numeric(as.character(x$ABMI))
x$year <- as.numeric(gsub('[^0-9].*', '', x$X))
x$quarter <- gsub('[0-9]{4} (Q[1-4])', '\\1', x$X)
subset(x, year >= 2004 & year <= 2013 & quarter == 'Q1')

答案 1 :(得分:0)

您的代码 GDPUK[seq(1,nrows(GDPUK),by=4),] 实际上非常适合这些用途。您唯一需要更改的是 nrownrows