我正在构建一个node.js应用程序并将一个六位数的base36表示形式的unix时间戳(以秒为单位)存储为Mongodb中_id的第一部分。典型的_id看起来像这样:
"_id" : "lwhlzy/czwszasfgr/a4d18976c1/f835caa1c3/184d06b47f"
连接了几个数据,包括时间戳,后跟一系列散列数据以形成GUID和“materialized path”
以后的查询将根据时间范围选择记录,然后选择获取该特定路径在该时间段内发生的事件的路径。这些查询将依赖于rooted regular expressions,因此我需要一个可以找到一系列base36数字的正则表达式:
这是我到目前为止的代码(通过节点运行的测试,是的,硬编码为六位数。在2038年12月23日之前不需要第七位。)
var base36 = "0123456789abcdefghijklmnopqrstuvwxyz";
// determine how many left-most characters from & to have in common
// this function works nicely, no problems here
var getOverlap = function (from, to) {
regex = '';
count = to.length;
for (i in to) {
regex += (i>0?'|':'')+'('+to.slice(0,count)+')';
count--;
}
result = from.match(RegExp(regex,"ig"));
return result[0];
};
var from = "lec0s0";
var to = "lwhvqg"; // generated from: parseInt(Date.now()/1000,10).toString(36)
var overlap = getOverlap(from,to);
console.log(from);
console.log(to);
var regex = overlap;
var i = overlap.length;
// start immediately after the left-most common characters and append the rest of the regex
while (i<6) {
regex += "[";
if (from[i] < to[i]) {
regex += base36.slice(base36.indexOf(from[i]), base36.indexOf(to[i])+1);
} else {
regex += base36.slice(base36.indexOf(from[i])) + base36.slice(0, base36.indexOf(to[i])+1);
}
regex += "]";
i++;
}
console.log(regex);
process.exit();
将输出如下内容:
l[efghijklmnopqrstuvw][cdefgh][0123456789abcdefghijklmnopqrstuv][stuvwxyz0123456789abcdefghijklmnopq][0123456789abcdefg]
在研究了这个之后,我意识到这有两个主要问题:1)它不适合真正的范围(它会跳过大量的记录)和2)Id而不是像[e-w]
这样的字符范围虽然它仍然有效,但每个角色都明确说明了。
对于输入from="lec0s0"
和to="lwhvqg"
,我意识到我错过了这个正则表达式的很大一部分。例如,上面的代码只允许第3个字符的范围为c-h
,但在第2个字符可以递增之前,该位置需要达到“z”。我已经确定我实际上需要一个看起来更像这样的正则表达式:
l[e-v][0-9a-z][0-9a-z][0-9a-z][0-9a-z]|l[e-w][c-g][0-9a-z][0-9a-z][0-9a-z]|l[e-w][c-h][0-9a-u][0-9a-z][0-9a-z]|l[e-w][c-h][0-9a-v][0-9a-o][0-9a-z]|l[e-w][c-h][0-9a-v][0-9a-q][0-9a-g]
所以我的问题是:我是否正确地总结正则表达式需要看起来像上面的后者?如果是这样,我如何修改代码来生成它?
提前致谢!
答案 0 :(得分:1)
我只是想指出你的模式中的错误
l[e-v][0-9a-z][0-9a-z][0-9a-z][0-9a-z]|l[e-w][c-g][0-9a-z][0-9a-z][0-9a-z]|l[e-w][c-h][0-9a-u][0-9a-z][0-9a-z]|l[e-w][c-h][0-9a-v][0-9a-o][0-9a-z]|l[e-w][c-h][0-9a-v][0-9a-q][0-9a-g]
l[e-v][0-9a-z][0-9a-z][0-9a-z][0-9a-z]|lw[c-g][0-9a-z][0-9a-z][0-9a-z]|lwh[0-9a-u][0-9a-z][0-9a-z]| ...
^ ^^
在标记位置,您不需要重复范围,这是不必要的,因为您在第一个选项中覆盖了以“le”开头的模式。
答案 1 :(得分:1)
您当前的模式将匹配le0000
及以上,您实际希望匹配:
lec0s[0-9a-z]|lec0[t-z][0-9a-z]{1}|lec[1-9a-z][0-9a-z]{2}|le[d-z][0-9a-z]{3}|l[f-v][0-9a-z]{4}|lw[0-9a-g][0-9a-z]{3}|lwh[0-9a-u][0-9a-z]{2}|lwhv[0-9a-p][0-9a-z]{1}|lwhvq[0-9a-g]
以下函数应该为您提供所需的正则表达式:
function getRegex(from,to) {
var base36 = '0123456789abcdefghijklmnopqrstuvwxyz',
getRange = function(f,t) {
if(f == t) {
return f;
}
if(base36.indexOf(f) >= base36.indexOf(t)) {
return t;
}
if(t <= '9' || f >= 'a'){
return '[' +f+'-'+t+']';
}
return '[' +f+(f<'9'?'-9':'')+(t>'a'?'a-':'')+t+']';
},
from = from.split(''),
to = to.split(''),
prefix='',
regex=[],
tmp,i,l;
for(i=0,l=from.length;i<l;i++) {
if(from[i]!=to[i]) {
break;
}
prefix+=from[i];
}
from.splice(0,prefix.length);
to.splice(0,prefix.length);
i = from.length;
while(i--) {
tmp = prefix+from.slice(0,i).join('');
if(from[i] == 'z') {
tmp+='z';
}
else if(from.length-i == 1) {
tmp += getRange(from[i],'z');
}
else if(i) {
tmp += getRange(base36.charAt(base36.indexOf(from[i])+1),'z');
tmp += '[0-9a-z]{'+(from.length-i-1)+'}';
}
else {
tmp += getRange(base36.charAt(base36.indexOf(from[i])+1),base36.charAt(base36.indexOf(to[i])-1));
tmp += '[0-9a-z]{'+(from.length-i-1)+'}';
}
regex.push(tmp);
}
for(i=1,l=to.length;i<l;i++) {
tmp = prefix+to.slice(0,i).join('');
if(to[i] == '0') {
tmp+='0';
}
else if(to.length-i == 1) {
tmp += getRange('0',to[i]);
}
else {
tmp += getRange('0',base36.charAt(base36.indexOf(to[i])-1));
tmp += '[0-9a-z]{'+(from.length-i-1)+'}';
}
regex.push(tmp);
}
return regex.join('|');
}
你可以在这里看到它:http://jsfiddle.net/3cu52/3/