无法删除隐藏的符号

时间:2017-06-26 10:53:08

标签: c# undefined-symbol

我正在编写一个程序,用于分析MS Word .doc / .docx文件中的文本,因此我需要将文本拆分为单词。

我使用String.Split方法,最流行的字符作为分隔符。 一切都很好,但MS Word使用了一些隐藏的符号,我找不到一个符号。

当我点击Word中的“显示隐藏符号”时,它看起来像hided symbol

我至少需要了解它:Unicode,名称等的十六进制代码

以下是我的所有分隔符

      char[] separators = { ' ', ',', '.', ':', '"', '\'', ';', '-', '‴', '‵',' ', '\b','\x00A0',
            ')', '\\', '*', '%', '$', '@', '{', '}', '„', '“','…', '′', '″','’','   ', '\x2007', '\x200C',
            '№', '(', '?', '!', '_', '\t', '\n', '\r', '\a', '<', '>','‶', '‷','    ','\0', '\x202F',
            '/', '~', '#', '+', '—', ']', '[', '|', '«', '»', '&', '–', '¶', '‘', '\f', '\x2060'};

      string[] splittedWords = text.Split(separator);

1 个答案:

答案 0 :(得分:0)

我认为更好的方法是使用正则表达式。使用正则表达式,您可以匹配,替换和拆分单词,而无需声明分隔符。试着看https://msdn.microsoft.com/en-us/library/system.text.regularexpressions.regex(v=vs.110).aspx 希望这有帮助