Question

我正在尝试将具有大量重复项的数据帧缩减为数据帧，每个特定条目只有一次，但是使用名为＆＃34; counter＆＃34;的变量。这个变量在数据帧中出现的频率。现在我对正则表达式有一些麻烦..

length(grep(kh$gem[124],kh$gem))

计算kh$gem[124]在数据框中的频率。问题是

> kh$gem[124]
[1] "Salzburg"

和

  > grep(kh$gem[124],kh$gem)
  [1] 120 124 125 126 127 128 134 141 144 146 148

但是，如果我研究这些变量，有一些我确实匹配了＃39; regexp，但不是我正在寻找的那些。

 > kh$gem[c(120,124,125,126,127,128,134,141,144,146,148)]
[1] "Oberndorf bei Salzburg" "Salzburg" "Salzburg" "Salzburg"              
[5] "Salzburg" "Salzburg" "Salzburg" "Salzburg"              
[9] "Salzburg" "Oberndorf bei Salzburg" "Salzburg"

我怎样才能消除那些＆＃34; Oberndorf bei Salzburg＆＃34;？

感谢您的帮助。最好的问候！

Answer 1

添加锚点。

grep(paste0("^" , kh$gem[124] , "$"),kh$gem)

如何使用regexp更准确地指定模式

1 个答案: