如何在r中使用stringr将字符串拆分为数字和剩余的字符串?

时间:2018-02-02 09:23:24

标签: r data-manipulation stringr text-manipulation

我想使用stringr在我的数据框中拆分字符串。

以下是我的数据框:

df<-data.frame(ID = 1:26, 
           DRUG_STRENGTH = c("50 MG", "1250 MG", "20 MG", "200 MG", "2MG", "60MG", NA, "300IU", 
                             NA, "600 MG", "500MG", "625MG", NA, NA, "50MG/ML", "40MG", "200MG", 
                             "200MG", "200MG", "5 MG", "5 MG", "200MG", "300IU/3ML", "0.05%", 
                             "112.5 BILLION", "10.8MG"))

我想要的数据框是:

# > df
#   ID DRUG_STRENGTH DRUG_STRENGTH_NO DRUG_STRENGTH_UNIT
# 1   1         50 MG               50                 MG
# 2   2       1250 MG             1250                 MG
# 3   3         20 MG               20                 MG
# 4   4        200 MG              200                 MG
# 5   5           2MG                2                 MG
# 6   6          60MG               60                 MG
# 7   7          <NA>             <NA>               <NA>
# 8   8         300IU              300                 IU
# 9   9          <NA>             <NA>               <NA>
# 10 10        600 MG              600                 MG
# 11 11         500MG              500                 MG
# 12 12         625MG              625                 MG
# 13 13          <NA>             <NA>               <NA>
# 14 14          <NA>             <NA>               <NA>
# 15 15       50MG/ML               50              MG/ML
# 16 16          40MG               40                 MG
# 17 17         200MG              200                 MG
# 18 18         200MG              200                 MG
# 19 19         200MG              200                 MG
# 20 20          5 MG                5                 MG
# 21 21          5 MG                5                 MG
# 22 22         200MG              200                 MG
# 23 23     300IU/3ML              300             IU/3ML
# 24 24         0.05%             0.05                  %
# 25 25 112.5 BILLION            112.5            BILLION
# 26 26        10.8MG             10.8                 MG

我的代码给了我想要的df,但我想问一下是否有更好的方法来编写正则表达式。

df <- df %>%
  mutate(DRUG_STRENGTH_NO = str_extract(DRUG_STRENGTH, pattern = "^\\d\\.?\\d?\\.?\\d?\\.?\\d*"),
         DRUG_STRENGTH_UNIT = str_trim(str_replace(DRUG_STRENGTH, pattern = "^\\d\\.?\\d?\\.?\\d?\\.?\\d*", replacement = "")))

2 个答案:

答案 0 :(得分:2)

我会使用extract

library(tidyverse)
df %>% 
  extract(DRUG_STRENGTH, into = c("No", "Unit"), "([0-9.]+)(.*)", remove = FALSE)
##    ID DRUG_STRENGTH    No     Unit
## 1   1         50 MG    50       MG
## 2   2       1250 MG  1250       MG
## 3   3         20 MG    20       MG
## 4   4        200 MG   200       MG
## 5   5           2MG     2       MG
## 6   6          60MG    60       MG
## 7   7          <NA>  <NA>     <NA>
## 8   8         300IU   300       IU
## 9   9          <NA>  <NA>     <NA>
## 10 10        600 MG   600       MG
## 11 11         500MG   500       MG
## 12 12         625MG   625       MG
## 13 13          <NA>  <NA>     <NA>
## 14 14          <NA>  <NA>     <NA>
## 15 15       50MG/ML    50    MG/ML
## 16 16          40MG    40       MG
## 17 17         200MG   200       MG
## 18 18         200MG   200       MG
## 19 19         200MG   200       MG
## 20 20          5 MG     5       MG
## 21 21          5 MG     5       MG
## 22 22         200MG   200       MG
## 23 23     300IU/3ML   300   IU/3ML
## 24 24         0.05%  0.05        %
## 25 25 112.5 BILLION 112.5  BILLION
## 26 26        10.8MG  10.8       MG

您可能需要返回并稍后检查任何空格。

答案 1 :(得分:0)

或者,如果你确定数字和余数用空格分隔,你可以使用strsplit或str_split(有或没有简化)。 使用正则表达式可能会更灵活,但在更复杂的情况下也会变得混乱。