Notepad ++:如何删除除url之外的所有内容?

时间:2017-02-20 01:49:28

标签: regex notepad++

我有一个包含许多网址的文本文档。 URls有许多不同的结局,如.net,.com,.de等......所有的URL都没有http:// oder www。在前。文档中还有许多其他文本,它看起来像这样:

2014/05/03  Red V!per       M   R   United States       jsugarcia.com/viper.gif Linux   mirror
2014/05/03  Red V!per       M   R   United States       thepeoplecenter.org/viper.gif   Linux   mirror
2014/05/03  Red V!per           R   Netherlands     ghijbeek.nl/viper.gif   Linux   mirror
2014/05/03  Red V!per       M   R   Netherlands     straalbedrijfsanders.nl/viper.gif   Linux   mirror
2014/05/03  Red V!per           R   European Union      serialnastya.com/viper.gif  Linux   mirror
2014/05/03  Red V!per       M   R   Denmark     thueringer-treppenlifte.de/vip...   Linux   mirror
2014/05/03  Red V!per           R   United States       tapitwater.com/images/viper.gif Linux   mirror
2014/05/03  Red V!per           R   Norway      sekureco.no/viper.gif   Linux   mirror

我想现在在Notepad ++中进行过滤,这样我只有带有这样的linebrak的网址:

  

site.com

2 个答案:

答案 0 :(得分:5)

似乎所有行都以Linux mirror终止,如果总是如此,你可以这样做:

  • 控制 + ħ
  • 找到:^.+\s+([^\s/]+)\S+\s+Linux\s+mirror
  • 替换为:$1
  • 全部替换

<强>解释

^           : begining of line
  .+        : 1 or more any character
  \s+       : 1 or more space
  (         : start group 1
    [^\s/]+ : 1 or more NON space or NON slash (The domain)
  )         : end group 1
  \S+       : 1 or more NON space
  \s+       : 1 or more space
  Linux     : literally Linux
  \s+       : 1 or more space
  mirror    : literally mirror

给定示例的结果:

jsugarcia.com
thepeoplecenter.org
ghijbeek.nl
straalbedrijfsanders.nl
serialnastya.com
thueringer-treppenlifte.de
tapitwater.com
sekureco.no

答案 1 :(得分:1)

  1. Ctrl+F打开搜索框
  2. 选择Regular Expression
  3. 选项
  4. 将此正则表达式放在“查找内容”框中:.*(\b\w+\.com).*
  5. 按下按钮Find All in Current Document
  6. 您可以测试您想要的正则表达式:https://regex101.com/r/0o2IsM/3

    enter image description here

    enter image description here