我有以下模式与最后包含长字符串的网址匹配,这在垃圾邮件中很常见。一些垃圾邮件重复相同的长字符串,因此使用{4,}检测具有相同URL的电子邮件效果很好,但如果每个URL的长字符串不同则会失败。除非找到至少4个这种模式,否则如何扩展此模式以返回“不匹配”?我试过用。+复制它?在每个副本之间,但在复制两次后,regex101开始出错。
/(?:(href|src).+?[\w\-\s]{30,}")/g
演示链接有更好的解释:https://regex101.com/r/EOkJrS/1
答案 0 :(得分:0)
这个答案真的属于@degant,但我不知道如何将他的评论标记为答案,而且我还是稍微调整了他的答案....
{{1}}
这是新模式。它匹配HTML代码中的所有URL(垃圾邮件中经常使用的“a href”类型和“img src”类型),其中包含30个或更多字符的字符串,这是垃圾邮件程序员用来欺骗垃圾邮件捕获程序时使用的随机函数的典型代码可用作电子邮件捕获链接。
再次感谢@degant和@trincot的帮助!