如何读取八位字节流文件并转换为utf-8?

时间:2014-10-07 13:26:22

标签: python unicode utf-8

我有一个Application / octet-stream文件,想要读入编码为utf-8的内存。我怎么能用Python做到这一点? 什么是实际的Application / octet-stream?

我试过了

import codecs
codecs.open('file/name','rb',encoding='utf-8',errors='ignore')

但它不起作用:

the result is 

u'\xOOA\x00r\x00'

我想要的是字母

非常感谢

1 个答案:

答案 0 :(得分:1)

Application/octet-stream表示数据的发送者(可能是HTTP服务器)不知道数据是什么。它只是一个任意的数据转储。您给出的示例输出确认它不是UTF-8,因为不应该有任何0字节。它可能是UTF-16-be但是,它必须是偶数个输入字节,你有5个。

这意味着输入数据在某种程度上无效。也许如果你跟那个给你的人或者写过制片人的人说话,那将有助于找出数据应该是什么。有可能它根本不是文本。