我有一些随机字符串,例如:Hello, my name is john.
。我希望将该字符串拆分为如下数组:Hello, ,, , my, name, is, john, .,
。我试过了str.split(/[^\w\s]|_/g)
,但似乎没有用。有什么想法吗?
答案 0 :(得分:18)
在任何非单词字符的运行上拆分str。不是A-Z,0-9和下划线。
var words=str.split(/\W+/); // assumes str does not begin nor end with whitespace
或者,假设您的目标语言是英语,您可以使用以下命令从字符串中提取所有语义有用的值(即“标记”字符串):
var str='Here\'s a (good, bad, indifferent, ...) '+
'example sentence to be used in this test '+
'of English language "token-extraction".',
punct='\\['+ '\\!'+ '\\"'+ '\\#'+ '\\$'+ // since javascript does not
'\\%'+ '\\&'+ '\\\''+ '\\('+ '\\)'+ // support POSIX character
'\\*'+ '\\+'+ '\\,'+ '\\\\'+ '\\-'+ // classes, we'll need our
'\\.'+ '\\/'+ '\\:'+ '\\;'+ '\\<'+ // own version of [:punct:]
'\\='+ '\\>'+ '\\?'+ '\\@'+ '\\['+
'\\]'+ '\\^'+ '\\_'+ '\\`'+ '\\{'+
'\\|'+ '\\}'+ '\\~'+ '\\]',
re=new RegExp( // tokenizer
'\\s*'+ // discard possible leading whitespace
'('+ // start capture group
'\\.{3}'+ // ellipsis (must appear before punct)
'|'+ // alternator
'\\w+\\-\\w+'+ // hyphenated words (must appear before punct)
'|'+ // alternator
'\\w+\'(?:\\w+)?'+ // compound words (must appear before punct)
'|'+ // alternator
'\\w+'+ // other words
'|'+ // alternator
'['+punct+']'+ // punct
')' // end capture group
);
// grep(ary[,filt]) - filters an array
// note: could use jQuery.grep() instead
// @param {Array} ary array of members to filter
// @param {Function} filt function to test truthiness of member,
// if omitted, "function(member){ if(member) return member; }" is assumed
// @returns {Array} all members of ary where result of filter is truthy
function grep(ary,filt) {
var result=[];
for(var i=0,len=ary.length;i++<len;) {
var member=ary[i]||'';
if(filt && (typeof filt === 'Function') ? filt(member) : member) {
result.push(member);
}
}
return result;
}
var tokens=grep( str.split(re) ); // note: filter function omitted
// since all we need to test
// for is truthiness
产生:
tokens=[
'Here\'s',
'a',
'(',
'good',
',',
'bad',
',',
'indifferent',
',',
'...',
')',
'example',
'sentence',
'to',
'be',
'used',
'in',
'this',
'test',
'of',
'English',
'language',
'"',
'token-extraction',
'"',
'.'
]
修改
也可以Github Gist
的形式提供答案 1 :(得分:9)
试试这个(我不确定这是不是你想要的):
str.replace(/[^\w\s]|_/g, function ($1) { return ' ' + $1 + ' ';}).replace(/[ ]+/g, ' ').split(' ');
答案 2 :(得分:4)
尝试:
str.split(/([_\W])/)
这将由任何非字母数字字符(\W
)和任何下划线分开。它使用捕获括号来包含在最终结果中拆分的项目。
答案 3 :(得分:0)
这个解决方案给我带来了空间挑战(仍需要它们),然后我给了*** FAIL: test_cases/q5/corner_tiny_corner.test
*** Corners missed: [(1, 1), (1, 6), (6, 1), (6, 6)]
*** Tests failed.
一个镜头,一切都很好。数组中输出的空格不容忽视,标点符号后留下的空格可以被删除。