您可以在此处查看说明http://www.mdh.org/sites/www/healthapp/jobs/View.aspx?id=10
MDH人力资源
525 E. Grant St。
Macomb,IL 61455
309-836-1577
F:309-836-1677
该页面有此地址,我想使用正则表达式提取城市和州。在这种情况下,它是Macomb和IL。
我暂时使用了以下正则表达式,但是在描述包含多个相似模式的情况下它不起作用。
(\w+),\s+(\w{2})\s+\d+
如何编写正则表达式,告诉首先提取这些地址行,然后是具有此模式的行?
答案 0 :(得分:0)
^([A-Z][A-Za-z\s]*),\s+([A-Z]{2})\s+\d{5}$
我觉得这样可以防止噪音消失。缺点是它可能会避免你想要的东西。在这种情况下,您可能希望使用像您这样不太强大的正则表达式遍历页面。无论如何,使用正则表达式无法实现完美。
适用于Javascript。调整语法以满足Python的需要。