清理并提取子域名&使用Regex Notepad ++从URL进行的域

时间:2015-08-20 13:20:25

标签: regex url notepad++ subdomain

这是一个简单的文本文件。

网址:

  • 可以有https://或http://
  • 消除以及跟踪网址/文件路径
  • 仅提取域和/或子域

我有Notepad ++和EditPlus

对其他建议开放?

示例:

  

https://appspace.com

     

http://appspace.com/

     

http://ayurfit.ning.com/main/authorization/signIn

     

http://bangalore.olx.in/login.php

     

http://birthdayshoes.com/forum/index.php

     

http://birthdayshoes.com/forum/register/

     

http://forums.virtualbox.org/ucp.php

尝试:

/(?!.{253})((?!-)[A-Za-z0-9-]{1,63}(?<!-)\.){1,126}+[A-Za-z]{2,6}/ 
^(?:https?://)?([^/.]+(?=\.)|)(\.?[^/.]+\.[^/]+)/?(.+|)$

https://regex101.com/r/hZ4cL4/4

在其他机器上尝试过很多来自Regex101的例子

也找到了这个小金块。一旦我明白了,我会发布它的不同之处。

Regular Expression - Extract subdomain & domain

2 个答案:

答案 0 :(得分:1)

  

您可以简单地提取两个.之间的任何内容   你可以使用lookbehinds用于http(s)和lookahead用于文件路径   微调你的结果。

答案 1 :(得分:1)

对于以协议开头的链接,您可以使用以下正则表达式:

PackageId

请参阅demo

PackageId look-behind确保在我们想要匹配的值之前有(?<=://)[\w-]+(?:\.[\w-]+)+\b ,并且整个匹配的文本由1个或多个单词字符或连字符({{1}的序列组成})最终用句点分隔。