有没有办法找到不和谐消息中单词的精确字符串?

时间:2020-08-29 19:15:16

标签: java discord-jda

当前,我正在开发一个不和谐的bot,它正在过滤消息。尝试过滤包含在其他单词中的单词,从而触发重复消息时,会发生我的问题。

这是我的filter.txt:

????

由于在“悲伤”中也可以找到“悲伤”,因此只要写出“悲伤”,我都会对“悲伤”的判断为假。
是否可以仅检测消息中的确切字符串?像:sad sadness sadnesses →'只检测悲伤'

我希望你明白我的意思。

代码:

I want to be happy, because sadness is bad 

2 个答案:

答案 0 :(得分:2)

正如红衣主教-恢复莫妮卡 Hades 所述,您应该看看正则表达式。

“ Regex”代表“正则表达式”,并描述了字符串的搜索模式。

使用正则表达式可以做很多事情,因此,如果您想了解更多有关正则表达式的信息,请查看tutorial
(这是我在谷歌搜索时发现的第一个,当然您可以使用任何喜欢的教程。)

对于您的用例,我建议以下内容:

首先,不要使用String.contains(),因为它仅适用于字符串,不适用于正则表达式。
使用String.matches()代替以下正则表达式:

"(?is).*\\bSTRING\\b.*"

由于已经进行了一些转义,因此如果没有它,正则表达式将是这样的:

(?is).*\bSTRING\b.*

我将解释其工作原理。

\ b

\b匹配单词边界。单词字符为a-zA-Z0-9_。此字符的任何组合都被视为一个单词。
这样的好处是,在以下情况下,您可以匹配单词 sad

  • “我很难过。” →句子结尾的.不会影响检测。
  • “悲伤是我的事”→即使是第一个单词,单词也会被匹配。 (这也受.*的影响。)

使用 sadness 时,它与 sad 不匹配,因为此词随后会继续出现:

  • “我正在感到悲伤!” →因为单词“ sad”后没有结尾,所以不是匹配项。匹配“悲伤”会起作用。

*

.与任何字符匹配,但某些换行符除外。 ((?s)可以帮助我。)
*基本上说,它前面的部分出现了零次或多次。
通过在字符串前后使用.*,可以使正则表达式与字符串周围的任何字符或字符组合(包括无字符)一起使用。
这很重要,因为这样可以将单词放置在每个可以想象的句子中,并且无论如何都可以始终匹配。

(是)

?i?s启用某些模式。
?i使正则表达式不区分大小写。这意味着 sadness SADNESS sAdNeSs 无关紧要;这三个都匹配。
?s启用“单行模式”,这意味着.也与所有换行符匹配。
?i?s可以组合成(?is),然后放在正则表达式的前面。

您不必像这样STRING那样插入单词:

"(?is).*\\b" + line + "\\b.*"

您的代码最后看起来像这样:

public void onGuildMessageReceived(GuildMessageReceivedEvent e) {
    File file = new File("src/filter.txt");
    try {
        BufferedReader br = new BufferedReader(new FileReader(file));
        String line;
        while ((line = br.readLine()) != null) {
            if(!line.startsWith("#")) {
                if(e.getMessage().getContentRaw().matches("(?is).*\\b" + line + "\\b.*")) {
                    User user = e.getJDA().getUserById(e.getAuthor().getIdLong());
                    e.getMessage().delete().queue();
                    user.openPrivateChannel().queue(privateChannel -> {
                        privateChannel.sendMessage("Bitte achte auf deine Sprache!").queue();
                    });
                }  
            }
        }
    } catch (IOException e1) {}
}

如果希望每个消息仅生成一条消息(因此在第一次匹配后停止),则可以在匹配单词并将消息发送给用户之后插入return;

答案 1 :(得分:0)

您还可以尝试使用诸如Aho-Corasick之类的字符串搜索算法,但这将需要实现适当的签名表。这样的算法在更大的单词列表中会更好。

请注意,此类算法很容易被规避。仅仅添加空格或使用1337字符替换将比单纯的单词过滤器聪明。