我需要在任何地方使用非单词字符将查询拆分为单词。例如:
query = "I am a great, boy's and I like! to have: a lot-of-fun and @do$$nice&acti*vities+enjoy good ?times."
应输出:
["I", "am", "a", "great", "", "boy", "s", "and", "I", "like", "", "to", "have", "", "a", "lot", "of", "fun", "and", "", "do", "", "nice", "acti", "vities", "enjoy", "good", "", "times"]
这样可以解决问题,但有更简单的方法吗?
query.split(/[ ,'!:\\@\\$\\&\\*+?.-]/)
答案 0 :(得分:6)
query.split(/\W+/)
# => ["I", "am", "a", "great", "boy", "s", "and", "I", "like", "to", "have", "a", "lot", "of", "fun", "and", "do", "nice", "acti", "vities", "enjoy", "good", "times"]
query.scan(/\w+/)
# => ["I", "am", "a", "great", "boy", "s", "and", "I", "like", "to", "have", "a", "lot", "of", "fun", "and", "do", "nice", "acti", "vities", "enjoy", "good", "times"]
这与预期的输出不同,因为它不包含空字符串。
答案 1 :(得分:1)
我正在添加这个答案,因为@ sawa没有完全重现所需的输出:
#Split using any single non-word character:
query.split(/\W/) #=> ["I", "am", "a", "great", "", "boy", "s", "and", "I", "like", "", "to", "have", "", "a", "lot", "of", "fun", "and", "", "do", "", "nice", "acti", "vities", "enjoy", "good", "", "times"]
现在,如果你不想在结果中使用空字符串,只需使用sawa的答案。
如果字符串包含多个空格,则上面的结果将在结果中创建许多空字符串,因为每个额外的空格将再次匹配并创建新的分割点。为了避免这种情况,我们可以添加一个或条件:
# Split using any number of spaces or a single non-word character:
query.split(/\s+|\W/)