Question

基本上，我想检查一个没有子域的有效URL。我似乎无法找出正确的正则表达式。

应该匹配的网址示例：

example.com
www.example.com
example.co.uk
example.com/page
example.com?key=value

不应匹配的网址示例：

test.example.com
sub.test.example.com

Answer 1

在这里，我们将从一个表达式开始，该表达式以.com或.co.uk右边为界，如果需要的话，我们可以向左滑动以收集所有非点字符，添加可选的www和https，然后我们将添加一个起始字符^，该字符将使所有子域失败：

^(https?:\/\/)?(www\.)?([^.]+)(\.com|\.co\.uk)(.+|)$

其他TLD可以添加到该捕获组：

(\.com|\.co\.uk|\.net|\.org|\.business|\.edu|\.careers|\.coffee|\.college)

并且表达式可以修改为：

^(https?:\/\/)?(www\.)?([^.]+)(\.com|\.co\.uk|\.net|\.org|\.business|\.edu|\.careers|\.coffee|\.college)(.+|)$

灵活性

我想不出什么让TLD太灵活，因为这是一个验证表达式。例如，如果我们将其简化为：

^(https?:\/\/)?(www\.)?([^.]+)(\.[a-z]+)(\.uk?)?[a-z?=\/]+$

它可能适用于问题中列出的URL，但也可以通过：

example.example

这是无效的。我们只能使用以下表达式：

^(https?:\/\/)?(www\.)?([^.]+)(\.[a-z]+)(\.uk?)?[a-z?=\/]+$

如果我们知道我们通过的内容，则它已经是一个URL。

NOT FUNCTIONAL DEMO

演示

此代码段仅显示捕获组的工作方式：

const regex = /^(https?:\/\/)?(www\.)?([^.]+)(\.com|\.co\.uk)(.+|)$/gm;
const str = `example.com
www.example.com
example.co.uk
example.com/page
example.com?key=value

test.example.com
sub.test.example.com`;
let m;

while ((m = regex.exec(str)) !== null) {
    // This is necessary to avoid infinite loops with zero-width matches
    if (m.index === regex.lastIndex) {
        regex.lastIndex++;
    }
    
    // The result can be accessed through the `m`-variable.
    m.forEach((match, groupIndex) => {
        console.log(`Found match, group ${groupIndex}: ${match}`);
    });
}

RegEx电路

jex.im可视化正则表达式：

RegEx

如果不需要此表达式，可以在regex101.com中对其进行修改/更改。

正则表达式用于失败的子域

1 个答案:

灵活性

NOT FUNCTIONAL DEMO

演示

RegEx电路

RegEx

DEMO