所以,我一直在研究这个域名正则表达式。到目前为止,它似乎通过SLD和TLD(使用可选的ccTLD)获取域名,但是TLD列表存在重复。这可以进一步重构吗?
params[:domain_name].downcase.strip.match(/^[a-z0-9\-]{2,63}
\.((a[cdefgilmnoqrstuwxz]|aero|arpa)|(b[abdefghijmnorstvwyz]|biz)|
(c[acdfghiklmnorsuvxyz]|cat|com|coop)|d[ejkmoz]|(e[ceghrstu]|edu)|f[ijkmor]|
(g[abdefghilmnpqrstuwy]|gov)|h[kmnrtu]|(i[delmnoqrst]|info|int)|
(j[emop]|jobs)|k[eghimnprwyz]|l[abcikrstuvy]|
(m[acdghklmnopqrstuvwxyz]|me|mil|mobi|museum)|(n[acefgilopruz]|name|net)|(om|org)|
(p[aefghklmnrstwy]|pro)|qa|r[eouw]|s[abcdeghijklmnortvyz]|
(t[cdfghjklmnoprtvwz]|travel)|u[agkmsyz]|v[aceginu]|w[fs]|y[etu]|z[amw])
(\.((a[cdefgilmnoqrstuwxz]|aero|arpa)|(b[abdefghijmnorstvwyz]|biz)|
(c[acdfghiklmnorsuvxyz]|cat|com|coop)|d[ejkmoz]|(e[ceghrstu]|edu)|f[ijkmor]|
(g[abdefghilmnpqrstuwy]|gov)|h[kmnrtu]|(i[delmnoqrst]|info|int)|
(j[emop]|jobs)|k[eghimnprwyz]|l[abcikrstuvy]|
m[acdghklmnopqrstuvwxyz]|mil|mobi|museum)|
(n[acefgilopruz]|name|net)|(om|org)|
(p[aefghklmnrstwy]|pro)|qa|r[eouw]|s[abcdeghijklmnortvyz]|
(t[cdfghjklmnoprtvwz]|travel)|u[agkmsyz]|v[aceginu]|w[fs]|y[etu]|z[amw]))?$/)
答案 0 :(得分:28)
请,请不要使用这样的固定且非常复杂的正则表达式来匹配已知的域名。
TLD列表不静态,特别是ICANN正在考虑新gTLD的简化流程。甚至ccTLD列表有时也会发生变化!
查看http://publicsuffix.org/中提供的列表,并编写一些能够下载并解析该列表的代码。
答案 1 :(得分:4)
下载:http://data.iana.org/TLD/tlds-alpha-by-domain.txt
示例用法(在Python中):
import re
def validate(domain):
valid_domains = [ line.upper().replace('.', '\.').strip()
for line in open('domains.txt')
if line[0] != '#' ]
r = re.compile(r'^[A-Z0-9\-]{2,63}\.(%s)$' % ('|'.join(valid_domains),))
return True if r.match(domain.upper()) else False
print validate('stackoverflow.com')
print validate('omnom.nom')
您可以将域列表构建从validate函数中分解出来以帮助提高性能。
答案 2 :(得分:0)
我可能对域名知之甚少。但为什么像“foo.info.com”这样的域名匹配?在这种特殊情况下,域名似乎是“info.com”。
您可能希望确保名称以[a-z \ d]开头。我认为您不能注册以破折号开头的域名吗?
答案 3 :(得分:-1)
正如你所写的那样,TLD部分是等效的但比(\.<tldpart>){1,2}
长,但我确信它可以修复以便重复...
编辑:是的,不,这是可能的,但基本上是一个非常慢的暴力列表来处理我认为的重复。更简单,更快速地将可能的TLD和SLD +国家/地区对放在一个大的哈希映射中,并检查子串。
答案 4 :(得分:-1)
您可以将正则表达式构建为字符串,然后执行Regexp.new(string)。
答案 5 :(得分:-1)
我建议从RFC 1035中规定的规则开始,然后向后工作 - 但前提是你真的真的需要从头开始。领域正则表达式模式必须(可以说仅次于电子邮件地址正则表达式模式)是最常见的事情。我会查看网站regexlib.com并浏览其他人做过的事情。