正则表达式用于失败的子域

时间:2019-05-30 03:20:38

标签: regex iis regex-lookarounds regex-group regex-greedy

基本上,我想检查一个没有子域的有效URL。我似乎无法找出正确的正则表达式。

应该匹配的网址示例:

  • example.com
  • www.example.com
  • example.co.uk
  • example.com/page
  • example.com?key=value

不应匹配的网址示例:

  • test.example.com
  • sub.test.example.com

1 个答案:

答案 0 :(得分:0)

在这里,我们将从一个表达式开始,该表达式以.com.co.uk右边为界,如果需要的话,我们可以向左滑动以收集所有非点字符,添加可选的wwwhttps,然后我们将添加一个起始字符^,该字符将使所有子域失败:

^(https?:\/\/)?(www\.)?([^.]+)(\.com|\.co\.uk)(.+|)$

其他TLD可以添加到该捕获组:

(\.com|\.co\.uk|\.net|\.org|\.business|\.edu|\.careers|\.coffee|\.college)

并且表达式可以修改为:

^(https?:\/\/)?(www\.)?([^.]+)(\.com|\.co\.uk|\.net|\.org|\.business|\.edu|\.careers|\.coffee|\.college)(.+|)$

灵活性

我想不出什么让TLD太灵活,因为这是一个验证表达式。例如,如果我们将其简化为:

^(https?:\/\/)?(www\.)?([^.]+)(\.[a-z]+)(\.uk?)?[a-z?=\/]+$

它可能适用于问题中列出的URL,但也可以通过:

example.example

这是无效的。我们只能使用以下表达式:

^(https?:\/\/)?(www\.)?([^.]+)(\.[a-z]+)(\.uk?)?[a-z?=\/]+$

如果我们知道我们通过的内容,则它已经是一个URL。

NOT FUNCTIONAL DEMO

演示

此代码段仅显示捕获组的工作方式:

const regex = /^(https?:\/\/)?(www\.)?([^.]+)(\.com|\.co\.uk)(.+|)$/gm;
const str = `example.com
www.example.com
example.co.uk
example.com/page
example.com?key=value

test.example.com
sub.test.example.com`;
let m;

while ((m = regex.exec(str)) !== null) {
    // This is necessary to avoid infinite loops with zero-width matches
    if (m.index === regex.lastIndex) {
        regex.lastIndex++;
    }
    
    // The result can be accessed through the `m`-variable.
    m.forEach((match, groupIndex) => {
        console.log(`Found match, group ${groupIndex}: ${match}`);
    });
}

RegEx电路

jex.im可视化正则表达式:

enter image description here

RegEx

如果不需要此表达式,可以在regex101.com中对其进行修改/更改。

DEMO