我是regex的新手,有人可以帮助我获取解析标记的正则表达式
<meta http-equiv="Content-Type" content="text/html; charset=ISO-8859-1">
有各种可能性吗?
答案 0 :(得分:2)
要涵盖“所有可能性”,您确实应该使用HTML 5的Determining the character encoding规则。这些不能表达为正则表达式。
有一个开源Java implementation of it in validator.nu
如果你坚持使用正则表达式,那么这可能会涵盖大多数使用meta元素声明的编码情况(例如,它不会涵盖XML声明)。然而,它是脏的,做出一些通常(但可能并非总是)正确的假设,我不推荐它。
/<meta[^>]+charset=['"]?(.*?)['"]?[\/\s>]/i