如何在运行时间过长时终止Matcher.find()?

时间:2011-08-19 18:22:59

标签: java regex matcher

想知道终止长时间运行的正则表达式匹配的技术(java matcher.find()方法)。也许子类化Matcher并添加一些逻辑以在x次迭代后终止?

基本上我使用遗传算法生成正则表达式,所以我对它们没有很多控制权。然后我针对某些文本测试每个文本以查看它们是否与文本的某个目标区域匹配。

因为我有点随机生成这些正则表达式,我得到了一些疯狂的东西,它吃了大量的cpu和一些find()调用需要一段时间来终止。我宁愿在一段时间后杀死它们,但不确定最好的方法。

所以,如果有人有想法,请告诉我。

6 个答案:

答案 0 :(得分:3)

有一个解决方案here可以解决您的问题。 (那个问题与你的问题相同。)

本质上,它是一个可以注意到线程中断的CharSequence。

答案中的代码:

/**
 * CharSequence that noticed thread interrupts -- as might be necessary 
 * to recover from a loose regex on unexpected challenging input. 
 * 
 * @author gojomo
 */
public class InterruptibleCharSequence implements CharSequence {
    CharSequence inner;
    // public long counter = 0; 

    public InterruptibleCharSequence(CharSequence inner) {
        super();
        this.inner = inner;
    }

    public char charAt(int index) {
        if (Thread.interrupted()) { // clears flag if set
            throw new RuntimeException(new InterruptedException());
        }
        // counter++;
        return inner.charAt(index);
    }

    public int length() {
        return inner.length();
    }

    public CharSequence subSequence(int start, int end) {
        return new InterruptibleCharSequence(inner.subSequence(start, end));
    }

    @Override
    public String toString() {
        return inner.toString();
    }
}

用此包裹你的字符串,你可以打断线程。

答案 1 :(得分:1)

最糟糕的情况是可能让人们对我大喊大叫的事情是:

你可以在另一个线程中运行正则表达式匹配,如果它运行的时间太长,你可以thread.stop()它。

答案 2 :(得分:1)

只是展示另一种解决方案。

您可以使用对输入不敏感的NFA算法,比Java标准库快数百倍。

我认为对输入的敏感性是造成问题的原因。

您可以在此处查看简介:Regular Expression Matching Can Be Simple And Fast (but is slow in Java, Perl, PHP, Python, Ruby, ...)

我在这里也回答了一个类似的问题:Cancelling a long running regex match?

答案 3 :(得分:0)

一个可能的解决方案,它有一个很好的事情,它不会阻止主线程,将在一个单独的线程中产生“匹配”。您可以创建自定义Callable,在持续时间/阈值过期后返回null,如果成功则返回“匹配”结果。

答案 4 :(得分:0)

你需要使用另一个线程并在它用完时停止它。

有两种停止方式:Thread#stop()和Thread#interrupt()。

使用Thread.stop()是相当危险的,并且Matcher不响应Thread.interrupt(回答中断是一种选择加入行为)。

但是有一个非常聪明的解决方案,一些细节是here。使用提供的InterruptibleCharSequence(它包装你的字符串并且几乎像一个工作,但它增加了对Thread#interrupt()的支持),然后构建你自己的Callable返回任何匹配器返回。现在可以使用FutureTask / ThreadPool组合执行每个runnable,并且可以在任何超时时间内获得结果:

Boolean result = myMatchingTask().get(2, TimeUnit.SECONDS)

如果您在Java EE环境中,可以跳过复杂的部分,只需使用InterruptipleCharSequence和@Asynchronous调用。

如果这听起来很神秘,请询问详情。

答案 5 :(得分:-1)

如果我是你,我会创建自己的类,我将放在我的应用程序和你用来匹配的库之间,并实现你需要杀死线程的“中断”等方法,并管理匹配那样。