我从一个阿拉伯语网站上抓取了数据,它看起来像ÈöÓúãÇááåÇáÑÍãäÇáÑÍíã,我假设这是“ windows-1256”编码。我希望能够看到像这样的阿拉伯字母文件:بِسْماللهالرحمنالرحيم
例如,我使用cp1256编码尝试了几种方法来打开熊猫的csv。但是,当我这样做时,我得到的字符看起来像这样‡أ,أ,أ¥أ‡أ,أ‘أچأ£أ¤أ‡أ,أ‘أچأ
data = pd.read_csv("online_content-articles.csv", sep='\t', header=None, encoding="cp1256")
我也尝试使用cp864和iso8859_6编码,但是我收到此消息“'charmap'编解码器无法解码位置1的字节0xa3:字符映射到“