使用Python re来摆脱链接

时间:2013-02-23 23:37:10

标签: python regex

假设我的字符串看起来像<a href="/wiki/Greater_Boston" title="Greater Boston">Boston–Cambridge–Quincy, MA–NH MSA</a>

如何使用re删除链接并仅获取Boston–Cambridge–Quincy, MA–NH MSA部分?

我尝试了类似match = re.search(r'<.+>(\w+)<.+>', name_tmp)但不起作用的内容。

2 个答案:

答案 0 :(得分:3)

re.sub('<a[^>]+>(.*?)</a>', '\\1', text)

请注意,解析HTML一般为rather dangerous。但是,您似乎正在解析MediaWiki生成的链接,可以安全地假设链接始终类似于格式化,因此您应该使用该正则表达式。

答案 1 :(得分:3)

您还可以使用bleach模块https://pypi.python.org/pypi/bleach,它包含html清理工具,可让您快速删除html文本