Question

我刚刚使用iTextSharp从pdf中获取所有文本，现在我需要将该文本拆分为单词。我以前使用的是Acrobat库，它自动将其分为单词（使用getPageNthWord()）。

我不知道使用了哪些标准，但现在我需要知道如何将文本拆分为单词。我将以不同的语言拆分文本，因此我需要拆分为每个可能的分隔符char。

我看到了方法Char.IsSeparator()，但是对每个字符使用这意味着循环，这将是无效的。

我到目前为止手动指定要在.Split()中使用的分隔符：

separators = " .,;:-(){}[]/\'""?¿!¡" & Convert.ToChar(9) & NewLine()

有一些地方可以检索常见的分隔符字符吗？

Answer 1

您可以将string.Split method与null参数一起使用：

如果separator参数为null或不包含字符，则假定空格字符为分隔符。空格字符由Unicode标准定义，如果将它们传递给Char.IsWhiteSpace方法，则返回true。

或者您可以关注MSDN sample并获取所有char.IsSeparator()个字符。