有条件地标记化的有效方法

时间:2015-04-23 01:23:00

标签: c# string tokenize

给定用户输入字符串:

“Mainframes / pl / sql;软件测试/ PL / SQL /项目管理/”

什么是标记字符串的好方法,如果它是“PL / SQL”的一部分,则保留'/',否则不会给予标记:

“大型机”,“pl / sql”,“软件测试”,“PL / SQL”,“项目管理”

这是因为用户可能会意外地将'/'字符作为分隔符输入。

1 个答案:

答案 0 :(得分:1)

如果令牌的顺序不重要,那么这样的事情可能有效:

public IEnumerable<string> Tokenise()
{
    var input = "Mainframes/pl/ sql; Software Testing/PL/SQL/Project management/";
    var results = new List<string>();

    foreach (Match match in Regex.Matches(input, @"pl\s*/\s*sql", RegexOptions.IgnoreCase))
    {
        results.Add(match.Value);
    }

    input = Regex.Replace(input, @"pl\s*/\s*sql", string.Empty, RegexOptions.IgnoreCase);

    results.AddRange(input.Split(new []{'/'}, StringSplitOptions.RemoveEmptyEntries));

    return results;
}

首先搜索pl / sql标记(考虑空白和大小写的差异),然后将它们从输入字符串中删除,并对剩余的“/”字符执行简单拆分。缺点是令牌的顺序与输入字符串不同。