我想知道是否有可能为所有可能的正则表达式构建倒排索引...我有一些想法,但它们非常模糊不清。< / p>
我的理由是因为我认为使用正则表达式的搜索引擎非常有用(我相信很多人都会同意),尽管搜索引擎的问题在于有很多东西需要搜索。这就是我猜的有倒排索引的原因。
也许类似的东西?我真的不知道。
这是我的想法的描述:
搜索引擎应该是一个正则表达式搜索引擎。这不是像只匹配单词的普通搜索引擎,而是匹配用户指定的特定正则表达式。
搜索示例:[^] * ell [^] *。* \。
例如,像这样的东西。这背后的原因是,有时我想搜索一些由于普通搜索引擎的限制而无法找到的东西。它将是一个简单的sed式正则表达式,也许有点javascripty。 无论如何它们都是相似的(基础知识)
编辑:我见过regular expression search engine,但这不是我要问的。我想知道是否有可能建立一个。
编辑2:也许是一个包含单词,数字(及其长度)等的倒排索引。也许某种表格我可以快速挑选出来,所以如果我有在我的正则表达式中有一定长度,我可以快速过滤所有已编入索引的数字吗?
如果我将这些想法结合起来,我只是意识到可能是多次搜索,但是数据来源不断缩小,直到剩下的一切都与正则表达式相匹配?例如:ell.\*\\.
将使用e
搜索所有内容,然后使用l
后面的a
搜索所有内容,然后使用l
后的所有内容el
搜索.
},然后是{{1}}之后的任意数量的字符。