我有一段Unicode文字。我想在打印输出之前从文本中删除所有换行符。我的代码看起来像这样:
input_string = u'\u3010JK\u3011\u9032\u5b66\u306b\u56f0\u3063\u305f\uff2a\uff2b\u304c\u5148\u751f\u306b\u52a9\u3051\u3066\u3082\u3089\u3046\u305f\u3081\u306b\uff33\uff25\uff38\uff01.mov'
output_string = ' '.join(input_string.splitlines())
print output_string
我希望库方法能够处理所有脏的换行符unicode字符情况。但是,看起来这个方法不会从给定的输入中删除换行符。请建议一个解决方案,从给定的输入中删除换行符。
答案 0 :(得分:6)
根据我的Python,你的字符串不包含类别Cc
(控制字符)的字符:
>>> unicodedata.category(u'\n') in map(unicodedata.category, input_string)
False
所以这个字符串中没有换行符。 unicodedata.name
确认了这一点:
>>> for c in s: print unicodedata.name(c)
...
LEFT BLACK LENTICULAR BRACKET
LATIN CAPITAL LETTER J
LATIN CAPITAL LETTER K
RIGHT BLACK LENTICULAR BRACKET
CJK UNIFIED IDEOGRAPH-9032
CJK UNIFIED IDEOGRAPH-5B66
HIRAGANA LETTER NI
CJK UNIFIED IDEOGRAPH-56F0
HIRAGANA LETTER SMALL TU
HIRAGANA LETTER TA
FULLWIDTH LATIN CAPITAL LETTER J
FULLWIDTH LATIN CAPITAL LETTER K
HIRAGANA LETTER GA
CJK UNIFIED IDEOGRAPH-5148
CJK UNIFIED IDEOGRAPH-751F
HIRAGANA LETTER NI
CJK UNIFIED IDEOGRAPH-52A9
HIRAGANA LETTER KE
HIRAGANA LETTER TE
HIRAGANA LETTER MO
HIRAGANA LETTER RA
HIRAGANA LETTER U
HIRAGANA LETTER TA
HIRAGANA LETTER ME
HIRAGANA LETTER NI
FULLWIDTH LATIN CAPITAL LETTER S
FULLWIDTH LATIN CAPITAL LETTER E
FULLWIDTH LATIN CAPITAL LETTER X
FULLWIDTH EXCLAMATION MARK
FULL STOP
LATIN SMALL LETTER M
LATIN SMALL LETTER O
LATIN SMALL LETTER V
答案 1 :(得分:1)
此字符串中没有换行符或类似换行符的内容。它有33个字符,所有这些都是可打印的字符,而不是格式化。
也许您对print
语句在结尾添加换行符与sys.stdout.write
的行为这一事实感到困惑?