我正在编写一个程序,用于分析MS Word .doc / .docx文件中的文本,因此我需要将文本拆分为单词。
我使用String.Split方法,最流行的字符作为分隔符。 一切都很好,但MS Word使用了一些隐藏的符号,我找不到一个符号。
当我点击Word中的“显示隐藏符号”时,它看起来像hided symbol。
我至少需要了解它:Unicode,名称等的十六进制代码
以下是我的所有分隔符
char[] separators = { ' ', ',', '.', ':', '"', '\'', ';', '-', '‴', '‵',' ', '\b','\x00A0',
')', '\\', '*', '%', '$', '@', '{', '}', '„', '“','…', '′', '″','’',' ', '\x2007', '\x200C',
'№', '(', '?', '!', '_', '\t', '\n', '\r', '\a', '<', '>','‶', '‷',' ','\0', '\x202F',
'/', '~', '#', '+', '—', ']', '[', '|', '«', '»', '&', '–', '¶', '‘', '\f', '\x2060'};
string[] splittedWords = text.Split(separator);
答案 0 :(得分:0)
我认为更好的方法是使用正则表达式。使用正则表达式,您可以匹配,替换和拆分单词,而无需声明分隔符。试着看https://msdn.microsoft.com/en-us/library/system.text.regularexpressions.regex(v=vs.110).aspx 希望这有帮助