找到特殊字符的第三次出现并在R之前删除所有内容

时间:2016-01-29 15:39:55

标签: regex r substring

我有这个包含URL的示例向量。我的目标是获取URL的路径。

sample1 <- c("http://tercihblog.com/indirisu/docugard/", "http://funerariagomez.com/js/ggogle/a201209e3f79b740337b7bdb521630fe/", 
      "http://www.t-online.de/contacts/2015/08/atlas.html/", "http://mgracetimber.ie/wp-content/themes/Banner/db/box/", 
      "http://zamartrade.com/cs/DHL/DHL%20_%20Tracking.htm/", "http://dunhamengineering.com/menu/Auto-loadgoogleDrive/Document.Index/", 
      "http://www.indiegogo.com/guide/forum/2014/09/forgot-password/", 
      "http://raetc.com/wp-admin/Service/clients/votre-compte/en-ligne/imp-rem.fr/", 
      "http://www.lidanhang.com/img/?https://secure.runescape.com/m=weblogin/loginform.ws?mod=www&amp;hwjklxlamp;ssl=0&amp;dest/", 
      "http://www.sudaener.com/wp-includes/js/crop/dropbox/", "https://zeustracker.abuse.ch/blocklist.php/", 
      "https://zeustracker.abuse.ch/blocklist.php?download=hostsdeny/", 
      "https://zeustracker.abuse.ch/blocklist.php?download=iptablesblocklist/", 
      "https://zeustracker.abuse.ch/blocklist.php?download=snort/", 
      "https://zeustracker.abuse.ch/blocklist.php?download=squiddomain/"
    )

我最初的尝试是这样的:

gsub('http://[^/]+/','/',sample1)

但是,这不会适用于https://的网址。一个合适的解决方案是在第三次出现"/"之前删除所有内容。我想知道如何使用regex执行此操作,以及是否有办法使用substring执行此操作。

由于

1 个答案:

答案 0 :(得分:5)

最好与gsub一起使用,因为代码更清晰,更直接。

如果您想在第3 /之前删除所有内容,请使用

> gsub('^(?:[^/]*/){3}','/',sample1)
 [1] "/indirisu/docugard/"                                                                              
 [2] "/js/ggogle/a201209e3f79b740337b7bdb521630fe/"                                                     
 [3] "/contacts/2015/08/atlas.html/"                                                                    
 [4] "/wp-content/themes/Banner/db/box/"                                                                
 [5] "/cs/DHL/DHL%20_%20Tracking.htm/"                                                                  
 [6] "/menu/Auto-loadgoogleDrive/Document.Index/"                                                       
 [7] "/guide/forum/2014/09/forgot-password/"                                                            
 [8] "/wp-admin/Service/clients/votre-compte/en-ligne/imp-rem.fr/"                                      
 [9] "/img/?https://secure.runescape.com/m=weblogin/loginform.ws?mod=www&amp;hwjklxlamp;ssl=0&amp;dest/"
[10] "/wp-includes/js/crop/dropbox/"                                                                    
[11] "/blocklist.php/"                                                                                  
[12] "/blocklist.php?download=hostsdeny/"                                                               
[13] "/blocklist.php?download=iptablesblocklist/"                                                       
[14] "/blocklist.php?download=snort/"                                                                   
[15] "/blocklist.php?download=squiddomain/"   

^(?:[^/]*/){3}匹配:

  • ^ - 字符串开头
  • (?:[^/]*/){3} - 恰好3次出现:
    • [^/]* - 除/
    • 以外的零个或多个字符
    • / - 文字/字符。

Cath suggests更正确的正则表达式修复,但是,您可能希望在开头添加^仅匹配字符串的开头:

gsub('^https?://[^/]+/','/',sample1)
      ^     ^

?(贪婪)量词意味着一次或零次,从而使s成为http可选项。它与gsub('^(https|http)://[^/]+/','/',sample1)相同(但效率更高)。

您可能还希望对正则表达式不区分大小写,请添加ignore.case = TRUE