我刚刚使用iTextSharp从pdf中获取所有文本,现在我需要将该文本拆分为单词。我以前使用的是Acrobat库,它自动将其分为单词(使用getPageNthWord()
)。
我不知道使用了哪些标准,但现在我需要知道如何将文本拆分为单词。我将以不同的语言拆分文本,因此我需要拆分为每个可能的分隔符char。
我看到了方法Char.IsSeparator()
,但是对每个字符使用这意味着循环,这将是无效的。
我到目前为止手动指定要在.Split()
中使用的分隔符:
separators = " .,;:-(){}[]/\'""?¿!¡" & Convert.ToChar(9) & NewLine()
有一些地方可以检索常见的分隔符字符吗?
答案 0 :(得分:2)
您可以将string.Split method与null参数一起使用:
如果separator参数为null或不包含字符,则假定空格字符为分隔符。空格字符由Unicode标准定义,如果将它们传递给Char.IsWhiteSpace方法,则返回true。
或者您可以关注MSDN sample并获取所有char.IsSeparator()
个字符。