我正在通过RStudio中的播放数据进行回顾表播放,并且我试图从音调序列列中删除非投球角色(即,拾取尝试,音调等)。例如:
数据集我有:
PITCH_SEQ_TX <- c('SSS.C', 'FFBB1', 'BBSSC', 'B.BSS2', 'CBSFFFS')
我想要的数据集:
PITCH_SEQ_TX <- c('SSSC', 'FFBB', 'BBSSC', 'BBSS', 'CBSFFFS')
我需要找出一种方法来删除文本字符串中的标点符号和数字,以便只保留字母。我尝试了几个gsub
功能代码行,但似乎无法找到正确的组合。任何帮助将不胜感激。
答案 0 :(得分:1)
您可以使用
PITCH_SEQ_TX <- c('SSS.C','FFBB1','BBSSC','B.BSS2','CBSFFFS')
gsub("[[:punct:][:digit:]]+", "", PITCH_SEQ_TX)
或删除所有非alpha:
gsub("[^[:alpha:]]+", "", PITCH_SEQ_TX)
请参阅R demo
[[:punct:][:digit:]]+
是一个括号表达式,匹配1个或多个(由于+
)标点符号([:punct:]
)或数字([:digit:]
)个字符,以及{{ 1}}是一个否定括号表达式,匹配任何不是字母的字符。