我正在尝试通过“过滤器”列表过滤字符串集合...一系列不良单词。该字符串包含我不想要的列表中的单词。
到目前为止,这里的坏词是“frakk”:
string[] filter = { "bad", "words", "frakk" };
string[] foo =
{
"this is a lol string that is allowed",
"this is another lol frakk string that is not allowed!"
};
var items = from item in foo
where (item.IndexOf( (from f in filter select f).ToString() ) == 0)
select item;
但这不起作用,为什么?
答案 0 :(得分:9)
您可以使用Any
+ Contains
:
var items = foo.Where(s => !filter.Any(w => s.Contains(w)));
如果你想比较不区分大小写:
var items = foo.Where(s => !filter.Any(w => s.IndexOf(w, StringComparison.OrdinalIgnoreCase) >= 0));
更新:如果您要排除过滤列表中至少有一个字的句子,您可以使用String.Split()
和Enumerable.Intersect
:
var items = foo.Where(sentence => !sentence.Split().Intersect(filter).Any());
Enumerable.Intersect
非常有效,因为它使用了Set
。将长序列放在首位更有效。由于Linq的延迟执行是在第一个匹配的单词上停止。
(请注意,“空”Split
包含其他空白字符,如制表符或换行符)
答案 1 :(得分:2)
您需要解决的第一个问题是将句子分成一系列单词。最简单的方法是基于空格
string[] words = sentence.Split(new char[] {' '}, StringSplitOptions.RemoveEmptyEntries);
从那里你可以使用一个简单的LINQ表达式来找到亵渎神灵
var badWords = words.Where(x => filter.Contains(x));
然而,这是一个原始的解决方案。它不会处理您可能需要考虑的许多复杂案例
' '
dog!
不会被视为dog
。打破法律字符上的文字可能要好得多答案 2 :(得分:0)
你的初步尝试不起作用的原因是这一行:
(from f in filter select f).ToString()
计算为linq表达式部分隐含的Array Iterator类型名称的字符串。所以你实际上是在比较以下字符串的字符:
System.Linq.Enumerable+WhereSelectArrayIterator``2[System.String,System.String]
而不是检查你的短语时过滤器的单词。