使用regEx从字符串中删除数字

时间:2016-10-21 13:48:04

标签: python regex

我正在尝试从字符串中删除未附加到单词的所有数字。例子:

 "python 3" => "python"
 "python3" => "python3"
 "1something" => "1something"
 "2" => ""
 "434" => ""
 "python 35" => "python"
 "1 " => ""
 " 232" => ""

直到现在我使用以下正则表达式:

((?<=[ ])[0-9]+(?=[ ])|(?<=[ ])[0-9]+|^[0-9]$)

可以正确地做一些上面的例子,但不是全部。任何帮助和一些解释?

3 个答案:

答案 0 :(得分:5)

为什么不使用单词边界?

\b\d+\b

以下是一个例子:

>>> import re
>>> words = ['python 3', 'python3', '1something', '2', '434', 'python 35', '1 ', ' 232']
>>> for word in words:
...     print("'{}' => '{}'".format(word, re.sub(r'\b\d+\b', '', word)))
...
'python 3' => 'python '
'python3' => 'python3'
'1something' => '1something'
'2' => ''
'434' => ''
'python 35' => 'python '
'1 ' => ' '
' 232' => ' '

请注意,这不会删除之前和之后的空格。我会建议使用strip(),但如果没有,你可以\b\d+\b\s*(后面的空格)或类似的东西。

答案 1 :(得分:3)

您可以拆分单词并删除任何数字更容易阅读的单词:

new = " ".join([w for w in s.split() if not w.isdigit()])

而且似乎也更快:

In [27]: p = re.compile(r'\b\d+\b')

In [28]: s =  " ".join(['python 3', 'python3', '1something', '2', '434', 'python
    ...:  35', '1 ', ' 232'])

In [29]: timeit " ".join([w for w in s.split() if not w.isdigit()])

100000 loops, best of 3: 1.54 µs per loop

In [30]: timeit p.sub('', s)

100000 loops, best of 3: 3.34 µs per loop

它还会删除预期输出的空间:

In [39]:  re.sub(r'\b\d+\b', '', " 2")
Out[39]: ' '

In [40]:  " ".join([w for w in " 2".split() if not w.isdigit()])
Out[40]: ''

In [41]:  re.sub(r'\b\d+\b', '', s)
Out[41]: 'python  python3 1something   python     '

In [42]:  " ".join([w for w in s.split() if not w.isdigit()])
Out[42]: 'python python3 1something python'

因此两种方法都有很大不同。

答案 2 :(得分:0)

这个正则表达式,(\ s | ^)\ d +(\ s | $),可以在javascript中显示如下所示

var value = "1 3@bar @foo2 * 112";
var matches = value.replace(/(\s|^)\d+(\s|$)/g,"");
console.log(matches)

它分为三部分:

  1. 它首先使用(\ s | ^)匹配空格或字符串的乞讨,其中\ s匹配空格|意思是和^意思是字符串的开头。
  2. 下一个匹配数字从1到次使用\ d表示数字,+匹配1到N次,但尽可能多。
  3. 最后(\ s | $)匹配带有\ s匹配空间的sting的空格或结尾,|含义或,和$匹配字符串的结尾。
  4. 你可以用行尾替换$或者如果你有几行代替\ n,或者只是将它添加到它旁边(\ s | $ | \ n)。希望这是你正在寻找的。