当前,我正在开发一个不和谐的bot,它正在过滤消息。尝试过滤包含在其他单词中的单词,从而触发重复消息时,会发生我的问题。
这是我的filter.txt:
????
由于在“悲伤”中也可以找到“悲伤”,因此只要写出“悲伤”,我都会对“悲伤”的判断为假。
是否可以仅检测消息中的确切字符串?像:sad
sadness
sadnesses
→'只检测悲伤'
我希望你明白我的意思。
代码:
I want to be happy, because sadness is bad
答案 0 :(得分:2)
正如红衣主教-恢复莫妮卡和 Hades 所述,您应该看看正则表达式。
“ Regex”代表“正则表达式”,并描述了字符串的搜索模式。
使用正则表达式可以做很多事情,因此,如果您想了解更多有关正则表达式的信息,请查看tutorial。
(这是我在谷歌搜索时发现的第一个,当然您可以使用任何喜欢的教程。)
对于您的用例,我建议以下内容:
首先,不要使用String.contains()
,因为它仅适用于字符串,不适用于正则表达式。
使用String.matches()
代替以下正则表达式:
"(?is).*\\bSTRING\\b.*"
由于已经进行了一些转义,因此如果没有它,正则表达式将是这样的:
(?is).*\bSTRING\b.*
我将解释其工作原理。
\ b
\b
匹配单词边界。单词字符为a
-z
,A
-Z
,0
-9
和_
。此字符的任何组合都被视为一个单词。
这样的好处是,在以下情况下,您可以匹配单词 sad :
.
不会影响检测。.*
的影响。)使用 sadness 时,它与 sad 不匹配,因为此词随后会继续出现:
。 *
.
与任何字符匹配,但某些换行符除外。 ((?s)
可以帮助我。)
*
基本上说,它前面的部分出现了零次或多次。
通过在字符串前后使用.*
,可以使正则表达式与字符串周围的任何字符或字符组合(包括无字符)一起使用。
这很重要,因为这样可以将单词放置在每个可以想象的句子中,并且无论如何都可以始终匹配。
(是)
?i
和?s
启用某些模式。
?i
使正则表达式不区分大小写。这意味着 sadness , SADNESS 或 sAdNeSs 无关紧要;这三个都匹配。
?s
启用“单行模式”,这意味着.
也与所有换行符匹配。
?i
和?s
可以组合成(?is)
,然后放在正则表达式的前面。
您不必像这样STRING
那样插入单词:
"(?is).*\\b" + line + "\\b.*"
您的代码最后看起来像这样:
public void onGuildMessageReceived(GuildMessageReceivedEvent e) {
File file = new File("src/filter.txt");
try {
BufferedReader br = new BufferedReader(new FileReader(file));
String line;
while ((line = br.readLine()) != null) {
if(!line.startsWith("#")) {
if(e.getMessage().getContentRaw().matches("(?is).*\\b" + line + "\\b.*")) {
User user = e.getJDA().getUserById(e.getAuthor().getIdLong());
e.getMessage().delete().queue();
user.openPrivateChannel().queue(privateChannel -> {
privateChannel.sendMessage("Bitte achte auf deine Sprache!").queue();
});
}
}
}
} catch (IOException e1) {}
}
如果希望每个消息仅生成一条消息(因此在第一次匹配后停止),则可以在匹配单词并将消息发送给用户之后插入return;
。
答案 1 :(得分:0)
您还可以尝试使用诸如Aho-Corasick之类的字符串搜索算法,但这将需要实现适当的签名表。这样的算法在更大的单词列表中会更好。
请注意,此类算法很容易被规避。仅仅添加空格或使用1337字符替换将比单纯的单词过滤器聪明。