正则表达式用于刮擦城市和州的臃肿描述

时间:2013-01-28 09:22:23

标签: python regex

您可以在此处查看说明http://www.mdh.org/sites/www/healthapp/jobs/View.aspx?id=10

  

MDH人力资源

     

525 E. Grant St。

     

Macomb,IL 61455

     

309-836-1577

     

F:309-836-1677

该页面有此地址,我想使用正则表达式提取城市和州。在这种情况下,它是Macomb和IL。

我暂时使用了以下正则表达式,但是在描述包含多个相似模式的情况下它不起作用。

(\w+),\s+(\w{2})\s+\d+

如何编写正则表达式,告诉首先提取这些地址行,然后是具有此模式的行?

1 个答案:

答案 0 :(得分:0)

^([A-Z][A-Za-z\s]*),\s+([A-Z]{2})\s+\d{5}$

我觉得这样可以防止噪音消失。缺点是它可能会避免你想要的东西。在这种情况下,您可能希望使用像您这样不太强大的正则表达式遍历页面。无论如何,使用正则表达式无法实现完美。

适用于Javascript。调整语法以满足Python的需要。