如何删除unicode字符串中的空格

时间:2018-03-28 03:23:22

标签: python regex string

我是python的新手并尝试进行网页抓取。 我得到的字符串是:public class A { public new configObject config { get { var baseConfig = base.config; //Modify baseConfig properties here return baseConfig; } set { base.config = value; } } } 我想要的最终输出是u' Kathy and Othon Prounis ',其中删除了额外的空格。 我试过了:

u'Kathy and Othon Prounis'

给出

temp = re.split(' ',u' Kathy  and Othon Prounis ')

但是我无法对其进行[u'', u'Kathy', u'', u'and', u'Othon', u'Prounis', u'']

1 个答案:

答案 0 :(得分:1)

您希望确保在字符串的开头/结尾不会发生拆分。你可以使用正则表达式看看:

>>> re.split('(?<!^) +(?!$)',u' Kathy  and Othon Prounis ')
[' Kathy', 'and', 'Othon', 'Prounis ']

或者,正则表达式的一个主要简化意味着在调用之前剥离文本,所以如果它是一个选项,你应该这样做。

>>> re.split(' +', ' Kathy  and Othon Prounis '.strip())
['Kathy', 'and', 'Othon', 'Prounis']

为此,为什么不做呢

>>> ' Kathy  and Othon Prounis '.split()
['Kathy', 'and', 'Othon', 'Prounis']