Python unicode.splitlines()以非EOL字符触发

时间:2013-08-20 00:13:18

标签: python unicode

Triyng在Python 2.7中实现这一点:

>>> s = u"some\u2028text"
>>> s
u'some\u2028text'
>>> l = s.splitlines(True)
>>> l
[u'some\u2028', u'text']

\u2028是从左到右的嵌入字符,而不是\r\n,因此不应拆分该行。有错误还是我的误会?

2 个答案:

答案 0 :(得分:6)

\u2028为LINE SEPARATOR,从左到右嵌入为\u202A

>>> import unicodedata

>>> unicodedata.name(u'\u2028')
'LINE SEPARATOR'

>>> unicodedata.name(u'\u202A')
'LEFT-TO-RIGHT EMBEDDING'

在python源代码中看到的被认为是换行符的代码点列表很容易(不是很容易找到)(python 2.7,我的评论):

/* Returns 1 for Unicode characters having the line break
 * property 'BK', 'CR', 'LF' or 'NL' or having bidirectional
 * type 'B', 0 otherwise.
 */
int _PyUnicode_IsLinebreak(register const Py_UNICODE ch)
{
    switch (ch) {
    // Basic Latin
    case 0x000A:    // LINE FEED
    case 0x000B:    // VERTICAL TABULATION
    case 0x000C:    // FORM FEED
    case 0x000D:    // CARRIAGE RETURN
    case 0x001C:    // FILE SEPARATOR
    case 0x001D:    // GROUP SEPARATOR
    case 0x001E:    // RECORD SEPARATOR

    // Latin-1 Supplement
    case 0x0085:    // NEXT LINE

    // General punctuation
    case 0x2028:    // LINE SEPARATOR
    case 0x2029:    // PARAGRAPH SEPARATOR
        return 1;
    }
    return 0;
}

答案 1 :(得分:2)

U+2028LINE SEPARATORU+2028U+2029PARAGRAPH SEPARATOR都应该被视为新行,因此Python正在做正确的事。

当然,想要拆分非标准的换行符列表有时是完全合理的。但你不能用splitlines做到这一点。您必须使用split - 如果您需要splitlines的其他功能,则必须自行实施。{}例如:

return [line.rstrip(sep) for line in s.split(sep)]