应用错误收集

Python处理二进制文件是危险的吗？

时间：2013-05-14 05:58:12

标签： python file binaryfiles

我在Python教程上阅读了这篇文章：（http://docs.python.org/2/tutorial/inputoutput.html#reading-and-writing-files）

Windows上的Python区分了文本和二进制文件; 文本文件中的行尾字符会自动略微更改何时读取或写入数据。这种对文件的幕后修改数据适用于ASCII文本文件，但它会破坏这样的二进制数据在JPEG或EXE文件中。阅读时要非常小心使用二进制模式写这样的文件。

我不太明白'文本文件中的行尾字符是如何被改变'将'破坏二进制数据'。因为我觉得二进制数据没有像行尾这样的东西。

有人可以为我解释这段话的更多内容吗？这让我觉得Python不欢迎二进制文件。

3 个答案:

答案 0 :(得分：14)

您只需要小心打开Windows上的二进制文件（open(filename, "rb")）而不是文本文件。之后使用数据没有问题。

特别是Windows上的行尾为'\r\n'。如果您将二进制文件作为文本文件读取并将其写回，则单个'\n'将在'\r\n'个序列中进行转换。如果您将文件打开为二进制文件（用于阅读和写作），则会出现 no 这样的问题。

Python能够处理二进制数据，你必须采用Windows系统上的任何语言，而不仅仅是Python（但Python的开发人员足够友好，可以警告你可能的操作系统问题）。在Linux这样的系统中，行尾是单个字符，这种区别也存在，但在将二进制数据作为文本读取/写入时不太可能导致问题（即没有b选项可以打开文件）。

答案 1 :(得分：2)

我觉得二进制数据没有像行尾这样的东西。

二进制文件中可以包含任何可能的字符，包括字符\ n。您不希望python隐式地将二进制文件中的任何字符转换为其他字符。除非你这么说，否则Python不知道它正在读取二进制文件。当python读取文本文件时，它会自动将任何\ n字符转换为操作系统的换行符，在Windows上为\ r \ n。

这就是所有计算机编程语言的工作方式。

考虑它的另一种方法是：文件只是一长串字节（8位）。一个字节只是一个整数。一个字节可以是任何整数。如果一个字节恰好是整数10，那么它也是字符\ n的ascii代码。如果文件中的字节表示二进制数据，则不希望Python读入10并将其转换为两个字节：13和10.通常当您读取二进制数据时，您想要读取前两个数据表示一个数字的字节，然后是代表另一个数字等的接下来的4个字节。显然，如果python突然将其中一个字节转换为两个字节，那将导致两个问题：1）它改变数据，2）所有你的数据边界将被弄乱。

一个例子：假设文件的第一个字节应该代表狗的权重，而字节的值是10.然后下一个字节应该代表狗的权重。 age，它的值是1.如果Python将10（即\ n的ascii代码）转换为两个字节：10和13，那么数据python将显示为：

10 13 1

当你为狗的年龄提取第二个字节时，你会得到13而不是1。

我们经常说一个文件包含＆＃39;字符＆＃39;但这显然是错误的。计算机无法存储字符;他们只能存储号码。所以文件只是一长串数字。如果你告诉python将这些数字视为表示字符的ascii代码，那么python将为你提供文本。

答案 2 :(得分：1)

我认为Python手册中的“略有改动”意味着将Unix行尾字符转换为Windows行尾字符。因为这只在Windows中完成，所以Unix和Linux没有这个麻烦。