Python中的lxml:抓取仅显示英文字符(其他字符乱码)

时间:2019-02-02 08:35:39

标签: python python-3.x encoding lxml.html

这是我的代码:

import requests
from lxml.etree import HTML
title_req = requests.get("https://www.youtube.com/watch?v=VK3QWm7jvZs")
title_main = HTML(title_req.content)
title = title_main.xpath("//span[@id='eow-title']/@title")[0]
print(title)
>> Halsey - Without Me - Ù\x85ترجÙ\x85Ø© عربÙ\x8a

我希望它像这样:

>> Halsey - Without Me - مترجمة عربي

我尝试添加UTF-8编码,但无法正常工作

谢谢。

1 个答案:

答案 0 :(得分:1)

我不知道为什么,但是这条线造成了问题。

title_main = HTML(title_req.content)

将其更改为

title_main = HTML(title_req.text)

我会尽力而为。