Question

我正在使用Python抓取一组最初的pdf文件。得到他们的文字后，我在排队结束时遇到了很多麻烦。我无法弄清楚行分隔符是什么。麻烦的是，我还是不知道。

这不是'\n'，或者我认为不是'\r\n'。但是，我设法隔离了其中一个特殊字符。我确实把它放在内存中，通过调用my_str.replace(eol, '')，我可以从我的一个文件中删除所有这些字符。

所以我的问题是开放式的。当涉及到unicode等时，我有点迷失。如何在不使用荒谬的东西的情况下识别我的文件中的这个字符，比如序列化然后读取它？有没有办法可以将它称为代码？我无法让Python产生实际的东西。我所看到的只是打印它，或者调用unicode(special_eol)是其功能用途中的字符作为换行符。

请帮忙！谢谢，对不起，如果我遗漏了一些明显的东西。

Answer 1

要确定具体字符，您可以使用str.encode('unicode_escape')或repr()获取（在Python 2中）字符的ASCII可打印表示形式：

>>> print u'☃'.encode('unicode_escape')
\u2603
>>> print repr(u'☃')
u'\u2603'

如何使用Python识别特殊的eol角色？

1 个答案: