我在mysql表中有一个百万或网址的列表。
我需要清理数据(提取域名),以便对DISTINCT类型查询充满信心。
数据有几种不同的类型: -
www.domain.tld
domain.tld
http://domain.tld
https://vhost.domain.tld
domain.tld/
存在无效域和空数据。
理想情况下,我想做一些事情: -
UPDATE table1 SET domain = website REGEXP '^(https?://)?[a-zA-Z0-9\\\\.\\\\-]+(/|$|\\\\?)'
域是一个新的空字段,网站是原始网址。
答案 0 :(得分:0)
你不能在MySQL中使用这样的正则表达式,但显然你可以使用一些实现它的UDF。参见: