如何知道从网站下载的文件的解码类型?

时间:2018-03-09 07:54:32

标签: python-3.x file encoding

我在工作中遇到问题,我尝试使用 python3

读取.doc文件

但我收到错误:

UnicodeDecodeError: 'gb2312' codec can't decode byte ....: illegal multibyte sequence

我尝试了很多解码类型,utf-8,GBK,utf-16 ......但每种解码类型都给我相同的结果,所有这些都是乱码,但我可以通过Microsoft Word正常打开文件,并且所有信息在文件显示中,我想该文件使用的是我不知道或者出错的解码类型?在这种情况下你能给我一些建议吗?

感谢您的阅读!

1 个答案:

答案 0 :(得分:0)

没有确定的方法来检测使用的编码类型,但幸运的是有一个chardet库,可以很好地完成。

import chardet
chardet.detect(my_undecoded_string)//for example {'encoding': 'UTF-8', 'confidence': 1.0}

查看here了解更多使用示例。