我想编辑一下使用split
和cut2
后自动创建的row.names中的一些信息。请参阅以下代码:
#Mock data
date_time <- as.factor(c('8/24/07 17:30','8/24/07 18:00','8/24/07 18:30',
'8/24/07 19:00','8/24/07 19:30','8/24/07 20:00',
'8/24/07 20:30','8/24/07 21:00','8/24/07 21:30',
'8/24/07 22:00','8/24/07 22:30','8/24/07 23:00',
'8/24/07 23:30','8/25/07 00:00','8/25/07 00:30'))
U. <- as.numeric(c('0.2355','0.2602','0.2039','0.2571','0.1419','0.0778','0.3557',
'0.3065','0.1559','0.0943','0.1519','0.1498','0.1574','0.1929'
,'0.1407'))
#Mock data frame
test_data <- data.frame(date_time,U.)
#To use cut2
library(Hmisc)
#Splitting the data into categories
sub_data <- split(test_data,cut2(test_data$U.,c(0,0.1,0.2)))
new_data <- do.call("rbind",sub_data)
test_data <- new_data
你会看到&#34; test_data&#34;会有一个额外的列&#34; row.names&#34;使用&#34; [0.000,0.100).6&#34;,&#34; [0.000,0.100).10&#34;等等。
如何删除&#34; [0.000,0.100)&#34;并保留&#34;。&#34;之后的数字。例如6和10,以便我可以在以后通过原始行号引用这些行?
还有其他更好的方法吗?
答案 0 :(得分:1)
您可以使用正则表达式(正则表达式),如下所示:
rownames(test_data) = gsub(".*[]\\)]\\.", "", rownames(test_data))
如果您不熟悉正则表达式,那就很神秘了,但它基本上表示匹配任何字符序列(.*
),后面跟一个括号或括号([]\\)]
)然后匹配句点(\\.
)并删除所有句子。
双反斜杠是“转义”,表示双反斜杠后面的字符应按字面解释,而不是以其特殊的正则表达式意义解释(例如,.
表示“匹配任何单个字符”,但是{{ 1}}表示“这实际上只是一个时期”。)
答案 1 :(得分:1)
只是为了好玩,您还可以使用regmatches
> Names <- rownames(test_data)
> ( rownames(test_data) <- regmatches(Names, regexpr("[0-9]+$", Names)) )
[1] "6" "10" "5" "9" "11" "12" "13" "14" "15" "1" "2" "3" "4" "7" "8"
答案 2 :(得分:1)
您还可以将sub_data的名称设置为NULL。
names(sub_data) <- NULL
test_data <- do.call('rbind', sub_data)
row.names(test_data)
#[1] "6" "10" "5" "9" "11" "12" "13" "14" "15" "1" "2" "3" "4" "7" "8"