假设我的字符串看起来像<a href="/wiki/Greater_Boston" title="Greater Boston">Boston–Cambridge–Quincy, MA–NH MSA</a>
如何使用re
删除链接并仅获取Boston–Cambridge–Quincy, MA–NH MSA
部分?
我尝试了类似match = re.search(r'<.+>(\w+)<.+>', name_tmp)
但不起作用的内容。
答案 0 :(得分:3)
re.sub('<a[^>]+>(.*?)</a>', '\\1', text)
请注意,解析HTML一般为rather dangerous。但是,您似乎正在解析MediaWiki生成的链接,可以安全地假设链接始终类似于格式化,因此您应该使用该正则表达式。
答案 1 :(得分:3)
您还可以使用bleach
模块https://pypi.python.org/pypi/bleach,它包含html清理工具,可让您快速删除html文本