Python - 从正则表达式中删除撇号

时间:2016-05-21 13:02:44

标签: python regex

我有以下正则表达式从某个网站提取歌曲名称:

'

显示以下结果:

'位于下方输出中的位置,是歌曲名称摘录的网站上的撇号

如何更改正则表达式以删除这些字符? viewValidation : Model -> Html msg viewValidation model = let (color, message) = if model.password == model.passwordAgain then ("green", "OK") else ("red", "Passwords do not match!") in div [ style [("color", color)] ] [ text message ]

Python output

TIA

1 个答案:

答案 0 :(得分:1)

正如评论中所述,您无法单独使用正则表达式。您需要unescape the HTML entities分别出现在比赛中。

import re
import html
regex = re.compile(r'<h2 class="chart-row__song">(.*?)</h2>')
result = [html.unescape(s) for s in regex.findall(mystring)]