Ruby字符串分为单词,忽略所有特殊字符:更简单的查询

时间:2013-10-22 05:28:17

标签: ruby string split

我需要在任何地方使用非单词字符将查询拆分为单词。例如:

query = "I am a great, boy's and I like! to have: a lot-of-fun and @do$$nice&acti*vities+enjoy good ?times."

应输出:

["I", "am", "a", "great", "", "boy", "s", "and", "I", "like", "", "to", "have", "", "a", "lot", "of", "fun", "and", "", "do", "", "nice", "acti", "vities", "enjoy", "good", "", "times"] 

这样可以解决问题,但有更简单的方法吗?

query.split(/[ ,'!:\\@\\$\\&\\*+?.-]/)

2 个答案:

答案 0 :(得分:6)

query.split(/\W+/)
# => ["I", "am", "a", "great", "boy", "s", "and", "I", "like", "to", "have", "a", "lot", "of", "fun", "and", "do", "nice", "acti", "vities", "enjoy", "good", "times"]

query.scan(/\w+/)
# => ["I", "am", "a", "great", "boy", "s", "and", "I", "like", "to", "have", "a", "lot", "of", "fun", "and", "do", "nice", "acti", "vities", "enjoy", "good", "times"]

这与预期的输出不同,因为它不包含空字符串。

答案 1 :(得分:1)

我正在添加这个答案,因为@ sawa没有完全重现所需的输出:

#Split using any single non-word character:
query.split(/\W/) #=> ["I", "am", "a", "great", "", "boy", "s", "and", "I", "like", "", "to", "have", "", "a", "lot", "of", "fun", "and", "", "do", "", "nice", "acti", "vities", "enjoy", "good", "", "times"]

现在,如果你不想在结果中使用空字符串,只需使用sawa的答案。

如果字符串包含多个空格,则上面的结果将在结果中创建许多空字符串,因为每个额外的空格将再次匹配并创建新的分割点。为了避免这种情况,我们可以添加一个或条件:

# Split using any number of spaces or a single non-word character:
query.split(/\s+|\W/)