如何使用Python识别特殊的eol角色?

时间:2013-09-25 06:33:57

标签: python file-io unicode newline

我正在使用Python抓取一组最初的pdf文件。得到他们的文字后,我在排队结束时遇到了很多麻烦。我无法弄清楚行分隔符是什么。麻烦的是,我还是不知道。

这不是'\n',或者我认为不是'\r\n'。但是,我设法隔离了其中一个特殊字符。我确实把它放在内存中,通过调用my_str.replace(eol, ''),我可以从我的一个文件中删除所有这些字符。

所以我的问题是开放式的。当涉及到unicode等时,我有点迷失。如何在不使用荒谬的东西的情况下识别我的文件中的这个字符,比如序列化然后读取它?有没有办法可以将它称为代码?我无法让Python产生实际的东西。我所看到的只是打印它,或者调用unicode(special_eol)是其功能用途中的字符作为换行符。

请帮忙!谢谢,对不起,如果我遗漏了一些明显的东西。

1 个答案:

答案 0 :(得分:2)

要确定具体字符,您可以使用str.encode('unicode_escape')repr()获取(在Python 2中)字符的ASCII可打印表示形式:

>>> print u'☃'.encode('unicode_escape')
\u2603
>>> print repr(u'☃')
u'\u2603'