我是python的新手并尝试进行网页抓取。
我得到的字符串是:public class A
{
public new configObject config
{
get
{
var baseConfig = base.config;
//Modify baseConfig properties here
return baseConfig;
}
set { base.config = value; }
}
}
我想要的最终输出是u' Kathy and Othon Prounis '
,其中删除了额外的空格。
我试过了:
u'Kathy and Othon Prounis'
给出
temp = re.split(' ',u' Kathy and Othon Prounis ')
但是我无法对其进行[u'', u'Kathy', u'', u'and', u'Othon', u'Prounis', u'']
。
答案 0 :(得分:1)
您希望确保在字符串的开头/结尾不会发生拆分。你可以使用正则表达式看看:
>>> re.split('(?<!^) +(?!$)',u' Kathy and Othon Prounis ')
[' Kathy', 'and', 'Othon', 'Prounis ']
或者,正则表达式的一个主要简化意味着在调用之前剥离文本,所以如果它是一个选项,你应该这样做。
>>> re.split(' +', ' Kathy and Othon Prounis '.strip())
['Kathy', 'and', 'Othon', 'Prounis']
为此,为什么不做呢
>>> ' Kathy and Othon Prounis '.split()
['Kathy', 'and', 'Othon', 'Prounis']