Question

假设我的字符串看起来像<a href="/wiki/Greater_Boston" title="Greater Boston">Boston–Cambridge–Quincy, MA–NH MSA</a>

如何使用re删除链接并仅获取Boston–Cambridge–Quincy, MA–NH MSA部分？

我尝试了类似match = re.search(r'<.+>(\w+)<.+>', name_tmp)但不起作用的内容。

Answer 1

re.sub('<a[^>]+>(.*?)</a>', '\\1', text)

请注意，解析HTML一般为rather dangerous。但是，您似乎正在解析MediaWiki生成的链接，可以安全地假设链接始终类似于格式化，因此您应该使用该正则表达式。

Answer 2

您还可以使用bleach模块https://pypi.python.org/pypi/bleach，它包含html清理工具，可让您快速删除html文本