Question

这是一个简单的文本文件。

网址：

可以有https：//或http：//
消除以及跟踪网址/文件路径
仅提取域和/或子域

我有Notepad ++和EditPlus

对其他建议开放？

示例：

https://appspace.com

http://appspace.com/

http://ayurfit.ning.com/main/authorization/signIn

http://bangalore.olx.in/login.php

http://birthdayshoes.com/forum/index.php

http://birthdayshoes.com/forum/register/

http://forums.virtualbox.org/ucp.php

尝试：

/(?!.{253})((?!-)[A-Za-z0-9-]{1,63}(?<!-)\.){1,126}+[A-Za-z]{2,6}/ 
^(?:https?://)?([^/.]+(?=\.)|)(\.?[^/.]+\.[^/]+)/?(.+|)$

https://regex101.com/r/hZ4cL4/4

在其他机器上尝试过很多来自Regex101的例子

也找到了这个小金块。一旦我明白了，我会发布它的不同之处。

Regular Expression - Extract subdomain & domain

Answer 1

您可以简单地提取两个.之间的任何内容你可以使用lookbehinds用于http（s）和lookahead用于文件路径微调你的结果。

Answer 2

对于以协议开头的链接，您可以使用以下正则表达式：

PackageId

请参阅demo

PackageId look-behind确保在我们想要匹配的值之前有(?<=://)[\w-]+(?:\.[\w-]+)+\b，并且整个匹配的文本由1个或多个单词字符或连字符（{{1}的序列组成}）最终用句点分隔。

清理并提取子域名＆amp;使用Regex Notepad ++从URL进行的域

2 个答案: