我正在使用HTML Agility Pack解析html,并且我不时会看到奇怪的字符串:“—。删除它们的最简单方法是什么?顺便说一下,我正在使用C#。
答案 0 :(得分:9)
您可能需要首先考虑一下为什么要获得这些字符,编码可能会出现问题
但是如果你确实需要从字符串中删除所有非ascii字符,那么正则表达式[^ - 〜]可以解决这个问题
var stripped = Regex.Replace("străipped of baâ€d charâ€cters", "[^ -~]", "");
Console.WriteLine(stripped); //outputs "stripped of bad characters"
请参阅http://www.catonmat.net/blog/my-favorite-regex/,了解该正则表达式的工作原理