Question

我正在构建一个node.js应用程序并将一个六位数的base36表示形式的unix时间戳（以秒为单位）存储为Mongodb中_id的第一部分。典型的_id看起来像这样：

"_id" : "lwhlzy/czwszasfgr/a4d18976c1/f835caa1c3/184d06b47f"

连接了几个数据，包括时间戳，后跟一系列散列数据以形成GUID和“materialized path”

以后的查询将根据时间范围选择记录，然后选择获取该特定路径在该时间段内发生的事件的路径。这些查询将依赖于rooted regular expressions，因此我需要一个可以找到一系列base36数字的正则表达式：

这是我到目前为止的代码（通过节点运行的测试，是的，硬编码为六位数。在2038年12月23日之前不需要第七位。）

var base36 = "0123456789abcdefghijklmnopqrstuvwxyz";

// determine how many left-most characters from & to have in common
// this function works nicely, no problems here
var getOverlap = function (from, to) {
    regex = '';
    count = to.length;

    for (i in to) {
        regex += (i>0?'|':'')+'('+to.slice(0,count)+')';
        count--;
    }

    result = from.match(RegExp(regex,"ig"));
    return result[0];
};

var from = "lec0s0"; 
var to = "lwhvqg"; // generated from: parseInt(Date.now()/1000,10).toString(36)

var overlap = getOverlap(from,to);

console.log(from);
console.log(to);

var regex = overlap;
var i = overlap.length;
// start immediately after the left-most common characters and append the rest of the regex
while (i<6) {
    regex += "[";

    if (from[i] < to[i]) {
        regex += base36.slice(base36.indexOf(from[i]), base36.indexOf(to[i])+1);
    } else {
        regex += base36.slice(base36.indexOf(from[i])) + base36.slice(0, base36.indexOf(to[i])+1);
    }

    regex += "]";
    i++;
}

console.log(regex);
process.exit();

将输出如下内容：

l[efghijklmnopqrstuvw][cdefgh][0123456789abcdefghijklmnopqrstuv][stuvwxyz0123456789abcdefghijklmnopq][0123456789abcdefg]

在研究了这个之后，我意识到这有两个主要问题：1）它不适合真正的范围（它会跳过大量的记录）和2）Id而不是像[e-w]这样的字符范围虽然它仍然有效，但每个角色都明确说明了。

对于输入from="lec0s0"和to="lwhvqg"，我意识到我错过了这个正则表达式的很大一部分。例如，上面的代码只允许第3个字符的范围为c-h，但在第2个字符可以递增之前，该位置需要达到“z”。我已经确定我实际上需要一个看起来更像这样的正则表达式：

l[e-v][0-9a-z][0-9a-z][0-9a-z][0-9a-z]|l[e-w][c-g][0-9a-z][0-9a-z][0-9a-z]|l[e-w][c-h][0-9a-u][0-9a-z][0-9a-z]|l[e-w][c-h][0-9a-v][0-9a-o][0-9a-z]|l[e-w][c-h][0-9a-v][0-9a-q][0-9a-g]

所以我的问题是：我是否正确地总结正则表达式需要看起来像上面的后者？如果是这样，我如何修改代码来生成它？

提前致谢！

Answer 1

我只是想指出你的模式中的错误

l[e-v][0-9a-z][0-9a-z][0-9a-z][0-9a-z]|l[e-w][c-g][0-9a-z][0-9a-z][0-9a-z]|l[e-w][c-h][0-9a-u][0-9a-z][0-9a-z]|l[e-w][c-h][0-9a-v][0-9a-o][0-9a-z]|l[e-w][c-h][0-9a-v][0-9a-q][0-9a-g]

l[e-v][0-9a-z][0-9a-z][0-9a-z][0-9a-z]|lw[c-g][0-9a-z][0-9a-z][0-9a-z]|lwh[0-9a-u][0-9a-z][0-9a-z]| ...
                                        ^                               ^^

在标记位置，您不需要重复范围，这是不必要的，因为您在第一个选项中覆盖了以“le”开头的模式。

Answer 2

您当前的模式将匹配le0000及以上，您实际希望匹配：

lec0s[0-9a-z]|lec0[t-z][0-9a-z]{1}|lec[1-9a-z][0-9a-z]{2}|le[d-z][0-9a-z]{3}|l[f-v][0-9a-z]{4}|lw[0-9a-g][0-9a-z]{3}|lwh[0-9a-u][0-9a-z]{2}|lwhv[0-9a-p][0-9a-z]{1}|lwhvq[0-9a-g]

以下函数应该为您提供所需的正则表达式：

function getRegex(from,to) {
    var base36 = '0123456789abcdefghijklmnopqrstuvwxyz',
        getRange = function(f,t) {
            if(f == t) {
                return f;
            }
            if(base36.indexOf(f) >= base36.indexOf(t)) {
                return t;
            } 
            if(t <= '9' || f >= 'a'){
                return '[' +f+'-'+t+']';
            }
            return '[' +f+(f<'9'?'-9':'')+(t>'a'?'a-':'')+t+']';    
        },
        from = from.split(''),
        to = to.split(''),
        prefix='', 
        regex=[], 
        tmp,i,l;

    for(i=0,l=from.length;i<l;i++) {
        if(from[i]!=to[i]) {
            break;
        }
        prefix+=from[i];
    }
    from.splice(0,prefix.length);
    to.splice(0,prefix.length);

    i = from.length;
    while(i--) {
        tmp = prefix+from.slice(0,i).join('');
        if(from[i] == 'z') {
            tmp+='z';
        }
        else if(from.length-i == 1) {
            tmp += getRange(from[i],'z');
        }
        else if(i) {
            tmp += getRange(base36.charAt(base36.indexOf(from[i])+1),'z');
            tmp += '[0-9a-z]{'+(from.length-i-1)+'}';
        } 
        else {
            tmp += getRange(base36.charAt(base36.indexOf(from[i])+1),base36.charAt(base36.indexOf(to[i])-1));
            tmp += '[0-9a-z]{'+(from.length-i-1)+'}';
        }
        regex.push(tmp);
    }
    for(i=1,l=to.length;i<l;i++) {
        tmp = prefix+to.slice(0,i).join('');
        if(to[i] == '0') {
            tmp+='0';
        }
        else if(to.length-i == 1) {
            tmp += getRange('0',to[i]);
        }
        else {
            tmp += getRange('0',base36.charAt(base36.indexOf(to[i])-1));
            tmp += '[0-9a-z]{'+(from.length-i-1)+'}';
        } 
        regex.push(tmp);
    }

    return regex.join('|');
}

你可以在这里看到它：http://jsfiddle.net/3cu52/3/

Javascript正则表达式，适用于六位数的base36数字

2 个答案: