我使用python从日本漫画网站获取html页面,并使用正则表达式仅提取了漫画章节的某些标题。我可以按原样正确获得其中的大多数,但其中一些格式不同。
此处是一个示例骸骨騎士様、只今異世界へお出掛け中_第19章
我以为我会尝试检查有关这种格式的类似问题,但是当我在Google中键入时,它会自动转换为日语单词。
对不起,如果这对于您中的某些人来说可能是一个显而易见的问题,但是我不知道如何使用python进行转换。请帮我转换一下。
答案 0 :(得分:2)
str = "骸骨騎士様、只今異世界へお出掛け中_第19章"
import html
print(html.unescape(str))
有关更多详细信息,请参见Decode HTML entities in Python string?。