我正在使用Python抓取一组最初的pdf文件。得到他们的文字后,我在排队结束时遇到了很多麻烦。我无法弄清楚行分隔符是什么。麻烦的是,我还是不知道。
这不是'\n'
,或者我认为不是'\r\n'
。但是,我设法隔离了其中一个特殊字符。我确实把它放在内存中,通过调用my_str.replace(eol, '')
,我可以从我的一个文件中删除所有这些字符。
所以我的问题是开放式的。当涉及到unicode等时,我有点迷失。如何在不使用荒谬的东西的情况下识别我的文件中的这个字符,比如序列化然后读取它?有没有办法可以将它称为代码?我无法让Python产生实际的东西。我所看到的只是打印它,或者调用unicode(special_eol)
是其功能用途中的字符作为换行符。
请帮忙!谢谢,对不起,如果我遗漏了一些明显的东西。
答案 0 :(得分:2)
要确定具体字符,您可以使用str.encode('unicode_escape')
或repr()
获取(在Python 2中)字符的ASCII可打印表示形式:
>>> print u'☃'.encode('unicode_escape')
\u2603
>>> print repr(u'☃')
u'\u2603'