答案 0 :(得分:16)
由于我与作者的完全团结,让我在这里写一篇来自superuser.com question的答案:
正确地指出使关键字搜索效率超过数百TB的唯一可行方法(或者无论其目前的索引是什么)都是预先计算单词索引。
事实上,一个完整的正则表达式引擎是图灵完备的,你可以编写任意的regexp,它会吞噬无限的CPU时间和内存。由于所有这些原因,他们向公众提供正则表达式搜索将是技术上的疯狂。
更新,正则表达不是图灵完成。请继续关注更详细的答案:
... TBD
答案 1 :(得分:2)
正则表达式引擎没有即时搜索。这可能是由于页面的索引方式。允许一个人在网上grep会占用大量的计算能力。
答案 2 :(得分:1)
blekko的web grep(https://blekko.com/ws/+/webgrep)支持正则表达式,但我们获得的大部分搜索都是针对常量字符串的,通常是HTML中的字符串,因为这很有趣:谁使用微格式?谁使用各种JavaScript库?谁使用各种评论系统?等等。
如果您向我们发送了正则表达式,我们很乐意为您运行。
运行这些搜索包括在我们的爬网中运行所有html的MapReduce作业。这就是为什么需要一段时间(一两天)才能得到答案。
答案 3 :(得分:0)
虽然您不太可能找到使用完整正则表达式搜索的网站,但谷歌确实有能力进行匹配。根据你想要实现的目标,这可能就足够了。
GoogleGuide似乎与一些可用选项相当深入。也许如果你举例说明你想要搜索的那种查询,我们可以找到解决方案吗?
答案 4 :(得分:0)
如果它需要正则表达式,那么我认为你已经搞砸了。但是,如果您只是寻找更多搜索能力,http://www.googleguide.com/advanced_operators_reference.html