应用错误收集

默认情况下，它们都使用一些基于正则表达式的标记化。区别在于它们的复杂性：

Keras Tokenizer仅替换某些标点符号并在剩余的空格字符上进行分割。
NLTK Tokenizer使用如Penn Treebank一样，Treebank标记生成器使用正则表达式对文本进行标记化。此实现是Robert McIntyre编写的tokenizer sed脚本的一部分并在http://www.cis.upenn.edu/~treebank/tokenizer.sed上可用。

它们都非常快，因为它们只运行正则表达式。如果您的基本文字没有太多标点符号或乱码，那么Keras可能是最简单的选择。

如果您实际上想要一个基于神经网络的神经网络，可以正确解析数字，日期等并可能执行词性标记，实体识别，则可以使用：

以上两种方法比任何基于正则表达式的方法都要慢，但这取决于要处理的源文本。