R中的剪切功能替代

时间:2019-01-23 16:23:19

标签: r regex dplyr

我有一些数据,格式为:

clipToBounds

我们可以将构成变量视为成人/儿童的数量,即2A_1C等于两个成人和两个孩子。

我想做的是减少可能的构图量。对于第5个人,我们的成分为8A_1C,我正在寻找一种方法将其降低至4 + A_0C。因此,例如,对于任何大于4A的成分值,我们将有4+。

class ViewController: UIViewController {

    override func viewDidLoad() {
        super.viewDidLoad()
        navigationController?.navigationBar.prefersLargeTitles = true
        self.navigationItem.largeTitleDisplayMode = .always
        navigationItem.searchController = UISearchController(searchResultsController: nil)
    }

}

我不确定如何在R中执行此操作,我正在考虑使用 dyplyr 中的 filter() select()。否则,我将需要使用某种正则表达式。

任何帮助将不胜感激。谢谢

2 个答案:

答案 0 :(得分:0)

我们可以使用gsub

df$Composition <- gsub("(?<!\\d)([5-9]|\\d{2,})(?=[AC])", "4+", df$Composition, perl = TRUE)

假定两个或两个以上连续数字代表始终大于4的数字(即01、02或001)。

输出:

  Person.ID Household.ID Composition
1         1         4593       1A_0C
2         2         4992       2A_1C
3         3         9843       1A_1C
4         4         8385       2A_2C
5         5         9823      4+A_1C
6         6         3458      1C_4+C
7         7         7485       2C_0C

答案 1 :(得分:0)

数据:

Person.ID <- c(1,2,3,4,5,6,7,8)
Household.ID <- c(4593,4992,9843,8385,9823,3458,7485)
Composition <- c("1A_0C","2A_1C","1A_1C","2A_2C","8A_1C","1A_9C","2A_0C")
dat <- tibble(Person.ID, Household.ID, Composition)

功能:

above4 <- function(f){
    ff <- gsub("[^0-9]","",f)
    if(ff>4){return("4+")}
    if(ff<=4){return(ff)}
}

应用功能(对分离的数据执行,但之后可以重新组合):

dat_ <- dat %>% tidyr::separate(., col=Composition, 
                           into=c("Adults", "Children"), 
                           sep="_") %>%
        dplyr::mutate(Adults_ = unlist(lapply(Adults,above4)), 
                         Children_ = unlist(lapply(Children,above4)))

然后您可以使用选择过滤器来获取所需的数据集。

dat_ %>% dplyr::mutate(Composition_ = paste0(Adults_, "A_", Children_, "C")) %>%
         dplyr::select(Person.ID, Household.ID, Composition=Composition_)

 # A tibble: 7 x 3
      Person.ID Household.ID Composition
          <dbl>        <dbl> <chr>
    1        1.        4593. 1A_0C
    2        2.        4992. 2A_1C
    3        3.        9843. 1A_1C
    4        4.        8385. 2A_2C
    5        5.        9823. 4+A_1C
    6        6.        3458. 1A_4+C
    7        7.        7485. 2A_0C