我有一个字符串:
“foo(2个空格)bar(3个空格)baaar(6个空格)fooo”
如何删除其中的重复空格,以便任意两个单词之间的空格不应超过一个?
答案 0 :(得分:79)
String#squeeze有一个可选参数来指定要挤压的字符。
irb> "asd asd asd asd".squeeze(" ")
=> "asd asd asd asd"
答案 1 :(得分:44)
>> str = "foo bar bar baaar"
=> "foo bar bar baaar"
>> str.split.join(" ")
=> "foo bar bar baaar"
>>
答案 2 :(得分:24)
从@ zetetic的回答中更新了基准:
require 'benchmark'
include Benchmark
string = "foo bar bar baaar"
n = 1_000_000
bm(12) do |x|
x.report("gsub ") { n.times { string.gsub(/\s+/, " ") } }
x.report("squeeze(' ')") { n.times { string.squeeze(' ') } }
x.report("split/join") { n.times { string.split.join(" ") } }
end
在运行两次后在桌面上运行时会产生这些值:
ruby test.rb; ruby test.rb
user system total real
gsub 6.060000 0.000000 6.060000 ( 6.061435)
squeeze(' ') 4.200000 0.010000 4.210000 ( 4.201619)
split/join 3.620000 0.000000 3.620000 ( 3.614499)
user system total real
gsub 6.020000 0.000000 6.020000 ( 6.023391)
squeeze(' ') 4.150000 0.010000 4.160000 ( 4.153204)
split/join 3.590000 0.000000 3.590000 ( 3.587590)
问题是squeeze
删除了任何重复的字符,导致输出字符串不同并且不符合OP的需要。 squeeze(' ')
确实满足了需求,但减慢了其运作速度。
string.squeeze
=> "fo bar bar bar"
我在考虑split.join
如何更快,并且看起来不会像大字符串一样,所以我调整基准来看看长字符串会产生什么影响:
require 'benchmark'
include Benchmark
string = (["foo bar bar baaar"] * 10_000).join
puts "String length: #{ string.length } characters"
n = 100
bm(12) do |x|
x.report("gsub ") { n.times { string.gsub(/\s+/, " ") } }
x.report("squeeze(' ')") { n.times { string.squeeze(' ') } }
x.report("split/join") { n.times { string.split.join(" ") } }
end
ruby test.rb ; ruby test.rb
String length: 250000 characters
user system total real
gsub 2.570000 0.010000 2.580000 ( 2.576149)
squeeze(' ') 0.140000 0.000000 0.140000 ( 0.150298)
split/join 1.400000 0.010000 1.410000 ( 1.396078)
String length: 250000 characters
user system total real
gsub 2.570000 0.010000 2.580000 ( 2.573802)
squeeze(' ') 0.140000 0.000000 0.140000 ( 0.150384)
split/join 1.400000 0.010000 1.410000 ( 1.397748)
因此,长线确实会产生很大的不同。
如果你确实使用gsub,那么gsub / \ s {2,} /,'')会稍快一点。
不是真的。以下是测试该断言的基准测试版本:
require 'benchmark'
include Benchmark
string = "foo bar bar baaar"
puts string.gsub(/\s+/, " ")
puts string.gsub(/\s{2,}/, ' ')
puts string.gsub(/\s\s+/, " ")
string = (["foo bar bar baaar"] * 10_000).join
puts "String length: #{ string.length } characters"
n = 100
bm(18) do |x|
x.report("gsub") { n.times { string.gsub(/\s+/, " ") } }
x.report('gsub/\s{2,}/, "")') { n.times { string.gsub(/\s{2,}/, ' ') } }
x.report("gsub2") { n.times { string.gsub(/\s\s+/, " ") } }
end
# >> foo bar bar baaar
# >> foo bar bar baaar
# >> foo bar bar baaar
# >> String length: 250000 characters
# >> user system total real
# >> gsub 1.380000 0.010000 1.390000 ( 1.381276)
# >> gsub/\s{2,}/, "") 1.590000 0.000000 1.590000 ( 1.609292)
# >> gsub2 1.050000 0.010000 1.060000 ( 1.051005)
如果您想要速度,请使用gsub2
。 squeeze(' ')
仍会围绕gsub
实施圈子运行。
答案 3 :(得分:20)
要补充其他答案,请注意Activesupport和Facets都提供String#squish([更新]警告:它还会删除字符串中的换行符):
>> "foo bar bar baaar".squish
=> "foo bar bar baaar"
答案 4 :(得分:7)
使用正则表达式匹配重复的空格(\s+)
并将其替换为空格。
"foo bar foobar".gsub(/\s+/, ' ')
=> "foo bar foobar"
这匹配每个空格,因为您只想替换空格,请使用/ +/
而不是/\s+/
。
"foo bar \nfoobar".gsub(/ +/, ' ')
=> "foo bar \nfoobar"
答案 5 :(得分:5)
哪种方法表现更好?
$ ruby -v
ruby 1.9.2p0 (2010-08-18 revision 29036) [i686-linux]
$ cat squeeze.rb
require 'benchmark'
include Benchmark
string = "foo bar bar baaar"
n = 1_000_000
bm(6) do |x|
x.report("gsub ") { n.times { string.gsub(/\s+/, " ") } }
x.report("squeeze ") { n.times { string.squeeze } }
x.report("split/join") { n.times { string.split.join(" ") } }
end
$ ruby squeeze.rb
user system total real
gsub 4.970000 0.020000 4.990000 ( 5.624229)
squeeze 0.600000 0.000000 0.600000 ( 0.677733)
split/join 2.950000 0.020000 2.970000 ( 3.243022)
答案 6 :(得分:3)
只需使用gsub
和正则表达式即可。
例如:
str = "foo bar bar baaar"
str.gsub(/\s+/, " ")
将返回新字符串,或者您可以使用gsub!
直接修改str。
顺便说一句。 Regexp非常有用 - 互联网上有足够的资源,例如测试你自己的正则表,试试rubular.com。