使用正则表达式清理URL

时间:2015-06-17 12:48:34

标签: regex url notepad++

我有数千行数据,如

  

http://xxxx.com/xxx-xxx-xxx-xxxx/ 60%2周刊2014-01-01 00:00

希望删除每个网址后面的所有内容

(输出应该在下面的干净网址中)

  

http://xxxx.com/xxx-xxx-xxx-xxxx/

谢谢

2 个答案:

答案 0 :(得分:1)

Ctrl + H 使用替换菜单,并确保启用正则表达式。然后,

查找 (^.*\/).*替换 $1https://regex101.com/r/lJ4lF9/12

或者,查找 (?m)(^.*\/).*替换 $1https://regex101.com/r/lJ4lF9/13

说明:

capture group内,查找字符串的开头(^)后跟任意次(.*),直到最后一次&# 34; /",然后任何次数。 替换为已捕获的组,方法是将其引用为$1

(?m)

答案 1 :(得分:0)

一种方法是使用linux命令行:

cat file.txt |cut -f1 -d" "

如果您对正则表达式感兴趣,那么这将匹配网址中的网址:

[^\ ]+