我想知道如何从字符串中替换(删除)多个单词(如500+)。我知道我可以使用替换功能为单个单词执行此操作,但如果我想替换500多个单词怎么办?我有兴趣从文章中删除所有通用关键字(例如“和”,“我”,“你”等)。
以下是1替换的代码..我正在寻找500 + ..
string a = "why and you it";
string b = a.Replace("why", "");
MessageBox.Show(b);
由于
@ Sergey Kucher文字大小会在几百字到几千字之间变化。我将从随机文章中取代这些词语。
答案 0 :(得分:8)
我通常会这样做:
// If you want the search/replace to be case sensitive, remove the
// StringComparer.OrdinalIgnoreCase
Dictionary<string, string> replaces = new Dictionary<string, string>(StringComparer.OrdinalIgnoreCase) {
// The format is word to be searched, word that should replace it
// or String.Empty to simply remove the offending word
{ "why", "xxx" },
{ "you", "yyy" },
};
void Main()
{
string a = "why and you it and You it";
// This will search for blocks of letters and numbers (abc/abcd/ab1234)
// and pass it to the replacer
string b = Regex.Replace(a, @"\w+", Replacer);
}
string Replacer(Match m)
{
string found = m.ToString();
string replace;
// If the word found is in the dictionary then it's placed in the
// replace variable by the TryGetValue
if (!replaces.TryGetValue(found, out replace))
{
// otherwise replace the word with the same word (so do nothing)
replace = found;
}
else
{
// The word is in the dictionary. replace now contains the
// word that will substitute it.
// At this point you could add some code to maintain upper/lower
// case between the words (so that if you -> xxx then You becomes Xxx
// and YOU becomes XXX)
}
return replace;
}
正如其他人所写,但没有子串的问题(ass
原则......你不想从cl ass
es :-)删除ass
es,只有在你只需要删除单词时才能工作:
var escapedStrings = yourReplaces.Select(Regex.Escape);
string result = Regex.Replace(yourInput, @"\b(" + string.Join("|", escapedStrings) + @")\b", string.Empty);
我使用\b
字边界...解释它是什么有点复杂,但找到字边界很有用: - )
答案 1 :(得分:0)
创建所需文本的列表并将其加载到列表中,这样做相当简单或变得非常复杂。一个简单的例子是:
var sentence = "mysentence hi";
var words = File.ReadAllText("pathtowordlist.txt").Split(Enviornment.NewLine);
foreach(word in words)
sentence.replace("word", "x");
如果您想要双映射方案,可以创建两个列表。
答案 2 :(得分:0)
试试这个:
string text = "word1 word2 you it";
List<string> words = new System.Collections.Generic.List<string>();
words.Add("word1");
words.Add("word2");
words.ForEach(w => text = text.Replace(w, ""));
修改强>
如果您想用其他文字替换文字,可以创建课程 Word :
public class Word
{
public string SearchWord { get; set; }
public string ReplaceWord { get; set; }
}
将上面的代码更改为:
string text = "word1 word2 you it";
List<Word> words = new System.Collections.Generic.List<Word>();
words.Add(new Word() { SearchWord = "word1", ReplaceWord = "replaced" });
words.Add(new Word() { SearchWord = "word2", ReplaceWord = "replaced" });
words.ForEach(w => text = text.Replace(w.SearchWord, w.ReplaceWord));
答案 3 :(得分:0)
如果您正在谈论单个字符串,解决方案是通过简单的replace方法将其全部删除。你可以在那里阅读:
“返回一个新字符串,其中当前实例中指定字符串的所有出现次数被另一个指定字符串替换”。
您可能需要替换多个单词,并且可以列出这些单词:
List<string> wordsToRemove = new List<string>();
wordsToRemove.Add("why");
wordsToRemove.Add("how);
等等
然后从字符串
中删除它们foreach(string curr in wordsToRemove)
a = a.ToLower().Replace(curr, "");
<强> Importent 强>
如果你想保持你的字符串,不会降低单词而不吝啬大小写的使用
foreach(string curr in wordsToRemove)
// You can reuse this object
Regex regex = new Regex(curr, RegexOptions.IgnoreCase);
myString = regex.Replace(myString, "");
答案 4 :(得分:0)
取决于课程情况,
但是如果你的文字很长而且你有很多单词,
并且你想要优化性能。
你应该从单词中构建一个trie,并在Trie中搜索匹配。
它不会降低复杂度的顺序,仍然是O(nm),但对于大型单词组,它将能够针对每个字符而不是逐个检查多个单词。
我可以假设几个houndred单词应该足以让它更快。
这是我认为最快的方法 我为你写了一个函数:
public struct FindRecord
{
public int WordIndex;
public int PositionInString;
}
public static FindRecord[] FindAll(string input, string[] words)
{
LinkedList<FindRecord> result = new LinkedList<FindRecord>();
int[] matchs = new int[words.Length];
for (int i = 0; i < input.Length; i++)
{
for (int j = 0; j < words.Length; j++)
{
if (input[i] == words[j][matchs[j]])
{
matchs[j]++;
if(matchs[j] == words[j].Length)
{
FindRecord findRecord = new FindRecord {WordIndex = j, PositionInString = i - matchs[j] + 1};
result.AddLast(findRecord);
matchs[j] = 0;
}
}
else
matchs[j] = 0;
}
}
return result.ToArray();
}
另一种选择:
可能是极少数情况下正则表达式会比构建代码更快。
尝试使用
public static string ReplaceAll(string input, string[] words)
{
string wordlist = string.Join("|", words);
Regex rx = new Regex(wordlist, RegexOptions.Compiled);
return rx.Replace(input, m => "");
}
答案 5 :(得分:0)
正则表达式可以做得更好,只需要列表中的所有替换单词,然后:
var escapedStrings = yourReplaces.Select(PadAndEscape);
string result = Regex.Replace(yourInput, string.Join("|", escapedStrings);
这需要一个在转义字符串之前对字符串进行空间填充的函数:
public string PadAndEscape(string s)
{
return Regex.Escape(" " + s + " ");
}