我的问题涉及如何根据正则表达式的结果在R中的数据框上创建新变量。 以下是数据的最小示例:
df <- data.frame(model=c("Legacy 2.0 BG5 B4 AUTO","Legacy 2.0 BH5 AT","Legacy 2.0i CVT Non Leather","Legacy 2.0i CVT","Legacy 2.0 BL5 AUTO B4",
"Legacy 2.0 BP5 AUTO","Legacy 2.0 BM5 AUTO CVT"), CRSP=c(3450000,3365000,4950000,5250000,4787526,3550000,5235000))
df
model CRSP
1 Legacy 2.0 BG5 B4 AUTO 3450000
2 Legacy 2.0 BH5 AT 3365000
3 Legacy 2.0i CVT Non Leather 4950000
4 Legacy 2.0i CVT 5250000
5 Legacy 2.0 BL5 AUTO B4 4787526
6 Legacy 2.0 BP5 AUTO 3550000
7 Legacy 2.0 BM5 AUTO CVT 5235000
我想创建一个新变量'chassis',其值是相应的'model'变量字符串的第三个元素,因此最终得到:
df
model CRSP chassis
1 Legacy 2.0 BG5 B4 AUTO 3450000 BG5
2 Legacy 2.0 BH5 AT 3365000 BH5
3 Legacy 2.0i CVT Non Leather 4950000 CVT
4 Legacy 2.0i CVT 5250000 CVT
5 Legacy 2.0 BL5 AUTO B4 4787526 BL5
6 Legacy 2.0 BP5 AUTO 3550000 BP5
7 Legacy 2.0 BM5 AUTO CVT 5235000 BM5
我需要找到一种方法来提取每一行中的相应元素并将它们放在新变量中。 任何帮助将不胜感激。
答案 0 :(得分:10)
以下是使用stringi
library(stringi)
df$chassis <- stri_extract_all_words(df$model, simplify = TRUE)[, 3]
df
# model CRSP chassis
# 1 Legacy 2.0 BG5 B4 AUTO 3450000 BG5
# 2 Legacy 2.0 BH5 AT 3365000 BH5
# 3 Legacy 2.0i CVT Non Leather 4950000 CVT
# 4 Legacy 2.0i CVT 5250000 CVT
# 5 Legacy 2.0 BL5 AUTO B4 4787526 BL5
# 6 Legacy 2.0 BP5 AUTO 3550000 BP5
# 7 Legacy 2.0 BM5 AUTO CVT 5235000 BM5
或类似地
df$chassis <- sapply(stri_extract_all_words(df$model), `[`, 3)
答案 1 :(得分:5)
使用strsplit
# Split each of the models using space (the + accounts for multiple spaces)
# Note that model is a factor in your data frame, so it must be cast to char
model.split <- strsplit(as.character(df$model), " +")
# Now go through each element of the splitted list and get the 3rd word
df$chassis <- sapply(model.split, function(x){x[3]})
答案 2 :(得分:5)
对于这类任务我是 tidyr 的忠实粉丝,并将所有部分提取到单独的列中:
if (!require("pacman")) install.packages("pacman")
pacman::p_load(dplyr, tidyr)
regx <- "(^[A-Za-z]+\\s+[0-9.a-z]+)\\s+([A-Z0-9]+)\\s*(.*)"
df %>%
extract(model, c("a", "chassis", "b"), regx, remove=FALSE)
## model a chassis b CRSP
## 1 Legacy 2.0 BG5 B4 AUTO Legacy 2.0 BG5 B4 AUTO 3450000
## 2 Legacy 2.0 BH5 AT Legacy 2.0 BH5 AT 3365000
## 3 Legacy 2.0i CVT Non Leather Legacy 2.0i CVT Non Leather 4950000
## 4 Legacy 2.0i CVT Legacy 2.0i CVT 5250000
## 5 Legacy 2.0 BL5 AUTO B4 Legacy 2.0 BL5 AUTO B4 4787526
## 6 Legacy 2.0 BP5 AUTO Legacy 2.0 BP5 AUTO 3550000
## 7 Legacy 2.0 BM5 AUTO CVT Legacy 2.0 BM5 AUTO CVT 5235000
这个正则表达式可能会更加通用:
regx <- "(^[^ ]+\\s+[^ ]+)\\s+([^ ]+)\\s*(.*)"
另请注意,您可以使用extract
通过删除第一组和最后一组的分组括号来获取您所关注的列,如下所示:
regx <- "^[A-Za-z]+\\s+[0-9.a-z]+\\s+([A-Z0-9]+)\\s*.*"
df %>%
extract(model, "chassis", regx, remove=FALSE)
答案 3 :(得分:4)
我们可以将字符匹配到包含i
和空格的数字部分,使用''
将其替换为sub
,然后使用word
提取第一个字。
library(stringr)
word(sub('^\\D*[0-9.i ]*', '', df$model),1)
#[1] "BG5" "BH5" "CVT" "CVT" "BL5" "BP5" "BM5"
或匹配空格,替换为单个空格并使用word
word(gsub(' +', ' ', df$model),3)
#[1] "BG5" "BH5" "CVT" "CVT" "BL5" "BP5" "BM5"
注意:不确定&#39; model&#39;的第一个元素中的额外空格是一个错字。如果原始数据集在单词之间没有多个空格,则word(df$model, 3)
将起作用。
答案 4 :(得分:3)
这可以很容易地在基础R:
中完成transform(df, chassis=sub("^(\\S+\\s+){2}(\\S+).*", "\\2", model))
产生
model CRSP chassis
1 Legacy 2.0 BG5 B4 AUTO 3450000 BG5
2 Legacy 2.0 BH5 AT 3365000 BH5
3 Legacy 2.0i CVT Non Leather 4950000 CVT
4 Legacy 2.0i CVT 5250000 CVT
5 Legacy 2.0 BL5 AUTO B4 4787526 BL5
6 Legacy 2.0 BP5 AUTO 3550000 BP5
7 Legacy 2.0 BM5 AUTO CVT 5235000 BM5
答案 5 :(得分:2)
您可以使用cSplit
包中的splitstackshape
分割空格字符:
library(splitstackshape)
df$chassis <- cSplit(df, "model", sep = " ", "wide")$model_3
这样就无需使用正则表达式或apply
函数。
答案 6 :(得分:0)
使用 unglue 我们可以做到:
# install.packages("unglue")
library(unglue)
unglue_unnest(df, model, "{=.*?} {=.*?} {chassis=[^ ]+}{=.*?}", remove = FALSE)
#> model CRSP chassis
#> 1 Legacy 2.0 BG5 B4 AUTO 3450000 BG5
#> 2 Legacy 2.0 BH5 AT 3365000 BH5
#> 3 Legacy 2.0i CVT Non Leather 4950000 CVT
#> 4 Legacy 2.0i CVT 5250000 CVT
#> 5 Legacy 2.0 BL5 AUTO B4 4787526 BL5
#> 6 Legacy 2.0 BP5 AUTO 3550000 BP5
#> 7 Legacy 2.0 BM5 AUTO CVT 5235000 BM5