Question

我使用python从日本漫画网站获取html页面，并使用正则表达式仅提取了漫画章节的某些标题。我可以按原样正确获得其中的大多数，但其中一些格式不同。

此处是一个示例骸骨騎士様、只今異世界へお出掛け中_第19章

我以为我会尝试检查有关这种格式的类似问题，但是当我在Google中键入时，它会自动转换为日语单词。

对不起，如果这对于您中的某些人来说可能是一个显而易见的问题，但是我不知道如何使用python进行转换。请帮我转换一下。

Answer 1

str = "&#39608;&#39592;&#39438;&#22763;&#27096;&#12289;&#21482;&#20170;&#30064;&#19990;&#30028;&#12408;&#12362;&#20986;&#25499;&#12369;&#20013;_&#31532;19&#31456;"
import html
print(html.unescape(str))

有关更多详细信息，请参见Decode HTML entities in Python string?。

如何使用python将此文本转换为日语单词？

1 个答案: