python的请求显示奇怪的语言而不是阿拉伯语

时间:2019-04-11 09:03:25

标签: python python-requests

我正在制作一个python脚本,我希望它从网站上获取阿拉伯文本,但是当我使用请求获取文本时,我得到的只是:

  

æóæÇÌóÒóÚÇðáóæßÇäóáöáäóÝÓöãóÌÒóÚõ

代替此:

  

اذامامَشَتنادىبمافيثِيابها   ذكِيُّالشذاوالمَندَليّ المطَيَّرُ

我在另一个也使用阿拉伯语的网站上尝试了相同的代码,该代码可以完美地工作并且可以毫无问题地获取阿拉伯语文本

from bs4 import BeautifulSoup
import requests

a = requests.get("https://www.aldiwan.net/poem30.html")
a = a.text

1 个答案:

答案 0 :(得分:0)

您必须解码a.content而不是a.text

我尝试使用utf-8对其进行解码,但始终失败,因此我转到url,他们使用的是特定类型的字符集,即Windows-1256。

enter image description here

我用同样的东西解码a.content,瞧!

enter image description here