将文本拆分为单词:分隔符

时间:2013-10-08 07:50:44

标签: c# .net vb.net split

我刚刚使用iTextSharp从pdf中获取所有文本,现在我需要将该文本拆分为单词。我以前使用的是Acrobat库,它自动将其分为单词(使用getPageNthWord())。

我不知道使用了哪些标准,但现在我需要知道如何将文本拆分为单词。我将以不同的语言拆分文本,因此我需要拆分为每个可能的分隔符char。

我看到了方法Char.IsSeparator(),但是对每个字符使用这意味着循环,这将是无效的。

我到目前为止手动指定要在.Split()中使用的分隔符:

separators = " .,;:-(){}[]/\'""?¿!¡" & Convert.ToChar(9) & NewLine()

有一些地方可以检索常见的分隔符字符吗?

1 个答案:

答案 0 :(得分:2)

您可以将string.Split method与null参数一起使用:

  

如果separator参数为null或不包含字符,则假定空格字符为分隔符。空格字符由Unicode标准定义,如果将它们传递给Char.IsWhiteSpace方法,则返回true。

或者您可以关注MSDN sample并获取所有char.IsSeparator()个字符。