我正在尝试阅读THIS文件,其中包含一些奇怪的字符。在Notepad ++中打开文件会导致它们被“sub”字符替换
该文件的内容是:
>>> open('test.txt', 'rb').read()
b'the first line\r\nsomething something \x06d \x1a Rd<br>+ \x1a Rd;;\x06d \x1a Rd<br>+ \x1a\r\nthe third line\r\neverything\r\nafter\r\nthe\r\nfourth\r\nline'
我正在使用带有简单代码的Python
with open('test.txt') as f:
for line in f:
print line
导致程序完全忽略第一个子字符后的所有内容。它根本不打印第三行和任何其他行。
我现在的问题是双重的:
修改
据我了解,问题来自角色\x1a
,根据this question,“文件结束符”。这解释了python在遇到文件时只是停止读取文件的事实,这意味着我现在的问题是:
我如何使用Python读取中间包含转义字符U + 001A的文件,而不将Python解释为文件末尾?
答案 0 :(得分:1)
我在Windows上。有趣的是,Python 3.3在二进制和文本模式下都能正常读取文件,但是文本模式解码为Unicode,并且可能在二进制模式下读取文件:
Python 3.3.0 (v3.3.0:bd8afb90ebf2, Sep 29 2012, 10:57:17) [MSC v.1600 64 bit (AMD64)] on win32
Type "help", "copyright", "credits" or "license" for more information.
>>> open('test.txt','rb').read()
b'the first line\r\nsomething something \x06d \x1a Rd<br>+ \x1a Rd;;\x06d \x1a Rd<br>+ \x1a\r\nthe third line\r\neverything\r\nafter\r\nthe\r\nfourth\r\nline'
>>> open('test.txt','r').read()
'the first line\nsomething something \x06d \x1a Rd<br>+ \x1a Rd;;\x06d \x1a Rd<br>+ \x1a\nthe third line\neverything\nafter\nthe\nfourth\nline'
但是,在Python 2.7上, 停在\x1a
:
Python 2.7.5 (default, May 15 2013, 22:44:16) [MSC v.1500 64 bit (AMD64)] on win32
Type "help", "copyright", "credits" or "license" for more information.
>>> open('test.txt','rb').read()
'the first line\r\nsomething something \x06d \x1a Rd<br>+ \x1a Rd;;\x06d \x1a Rd<br>+ \x1a\r\nthe third line\r\neverything\r\nafter\r\nthe\r\nfourth\r\nline'
>>> open('test.txt','r').read()
'the first line\nsomething something \x06d '
文本和二进制模式之间唯一的另一个区别是\r\n
被转换为\n
,因此如果您仍然需要该翻译而不是停留在\x1a
上,请以二进制形式读取该文件做替换你自己:
>>> open('test.txt','rb').read().replace('\r\n','\n')
'the first line\nsomething something \x06d \x1a Rd<br>+ \x1a Rd;;\x06d \x1a Rd<br>+ \x1a\nthe third line\neverything\nafter\nthe\nfourth\nline'