我在.rData文件中给出了一些数据。格式是字符模式下的xts
对象。 (我意识到这是一种不寻常的格式,但我无法控制它)
> head(trades)
SYMBOL EX PRICE SIZE COND BID BIDSIZ OFR
2012-05-04 09:30:00 "BAC" "T" "7.89" "38538" "F" "7.89" "523" "7.9"
2012-05-04 09:30:01 "BAC" "Z" "7.885" "288" "@" "7.88" "61033" "7.9"
2012-05-04 09:30:03 "BAC" "X" "7.89" "1000" "@" "7.88" "1974" "7.89"
2012-05-04 09:30:07 "BAC" "T" "7.89" "19052" "F" "7.88" "1058" "7.89"
2012-05-04 09:30:08 "BAC" "Y" "7.89" "85053" "F" "7.88" "108101" "7.9"
2012-05-04 09:30:09 "BAC" "D" "7.8901" "10219" "@" "7.89" "268" "7.9"
> mode(trades)
'character'
我想通过转换为更健全的格式(即tibble)来处理这些数据,以便我可以将列存储为日期时间,双精度数和整数。
我已设法通过以下代码实现此目的:
> trades_ = bind_cols(data_frame(DATE=index(trades)), as_data_frame(coredata(trades))) %>%
mutate_at(as.numeric, .cols=vars(PRICE, BID, OFR)) %>%
mutate_at(as.integer, .cols=vars(SIZE, BIDSIZ, OFRSIZ))
> head(trades_)
# A tibble: 6 × 10
DATE SYMBOL EX PRICE SIZE COND BID BIDSIZ OFR
<dttm> <chr> <chr> <dbl> <int> <chr> <dbl> <int> <dbl>
1 2012-05-04 09:30:00 BAC T 7.8900 38538 F 7.89 523 7.90
2 2012-05-04 09:30:01 BAC Z 7.8850 288 @ 7.88 61033 7.90
3 2012-05-04 09:30:03 BAC X 7.8900 1000 @ 7.88 1974 7.89
4 2012-05-04 09:30:07 BAC T 7.8900 19052 F 7.88 1058 7.89
5 2012-05-04 09:30:08 BAC Y 7.8900 85053 F 7.88 108101 7.90
6 2012-05-04 09:30:09 BAC D 7.8901 10219 @ 7.89 268 7.90
我想知道是否已有内置功能。查看trades
矩阵的每一列的东西,并确定它是否是整数,双精度等列,并将其转换为适当的类型。
这就是csv解析器会做的事情。
答案 0 :(得分:1)
这远非权威的答案,但我最终这样做了:
smarter_type_convert = function (vector) {
converted_vector = type.convert(vector)
if (is.numeric(converted_vector)) {
int_vector = as.integer(converted_vector)
if (isTRUE(all.equal(int_vector, converted_vector, check.attributes=FALSE))) {
int_vector
} else {
converted_vector
}
} else {
converted_vector
}
}
trades %>% coredata %>% as_data_frame %>% mutate_all(smarter_type_convert)
答案 1 :(得分:0)
您是正确的,因为您在同一帧中处理多个类,因此数据框是正确的方法。 xts
不允许多个类,因此强制规则会强制您使用字符而不是数字。
这是一个解决方案,因此您无需专门调出每一列。我使用tidyquant
包来处理“tidyverse”中的定量数据(即使用“整洁”数据帧)。它还有一些很好的函数可以转换为xts
,matrix
和其他包含行名的时间序列类。
首先,我重新创建数据。
> trades_xts
SYMBOL EX PRICE SIZE COND BID BIDSIZ OFR
2012-05-04 09:30:00 "BAC" "T" "7.8900" "38538" "F" "7.89" "523" "7.90"
2012-05-04 09:30:01 "BAC" "Z" "7.8850" "288" "@" "7.88" "61033" "7.90"
2012-05-04 09:30:03 "BAC" "X" "7.8900" "1000" "@" "7.88" "1974" "7.89"
2012-05-04 09:30:07 "BAC" "T" "7.8900" "19052" "F" "7.88" "1058" "7.89"
2012-05-04 09:30:08 "BAC" "Y" "7.8900" "85053" "F" "7.88" "108101" "7.90"
2012-05-04 09:30:09 "BAC" "D" "7.8901" "10219" "@" "7.89" "268" "7.90"
接下来,我使用整洁的功能来清理数据。它比您的脚本长一点,但您不必担心哪些列具有哪种数据类型(xts索引除外)。请注意,我正在使用tidyquant::as_tibble()
函数将xts
行名称转换为列。我使用mutate_each
将type.convert
函数应用于每列。不幸的是,基础R喜欢factor
类,所以我添加了一个额外的步骤来转换为character
。最后两个步骤只是使用dplyr::rename
和lubridate::as_datetime
清除日期时间列,tidyquant
为您加载。
> library(tidyquant)
> trades_xts %>%
as_tibble(preserve_row_names = TRUE) %>%
mutate_each(funs(type.convert)) %>%
mutate_if(is.factor, as.character) %>%
rename(DATE = row.names) %>%
mutate(DATE = as_datetime(DATE, tz = Sys.timezone()))
# A tibble: 6 × 9
DATE SYMBOL EX PRICE SIZE COND BID BIDSIZ OFR
<dttm> <chr> <chr> <dbl> <int> <chr> <dbl> <int> <dbl>
1 2012-05-04 09:30:00 BAC T 7.8900 38538 F 7.89 523 7.90
2 2012-05-04 09:30:01 BAC Z 7.8850 288 @ 7.88 61033 7.90
3 2012-05-04 09:30:03 BAC X 7.8900 1000 @ 7.88 1974 7.89
4 2012-05-04 09:30:07 BAC T 7.8900 19052 F 7.88 1058 7.89
5 2012-05-04 09:30:08 BAC Y 7.8900 85053 F 7.88 108101 7.90
6 2012-05-04 09:30:09 BAC D 7.8901 10219 @ 7.89 268 7.90