应用错误收集

通过“规范化”你只是意味着把所有东西都小写？

关于是否小写所有内容的决定实际上取决于您打算做什么。出于某些目的，降低所有内容的效果会更好，因为它会降低数据的稀疏性（大写单词很少见，并且可能会混淆系统，除非您有大量语料库，以便大写单词的统计数据是合适的）。在其他任务中，案例信息可能很有价值。

此外，您还需要做出类似的其他注意事项。例如，"can't"应该被视为["can't"]，["can", "'t"]或["ca", "n't"]（我在不同的语料库中看到了所有三个）。那么7-year-old呢？这是一个长话吗？还是应该分开的三个词？

那就是说，没有理由重新格式化语料库。您可以让代码动态地进行这些更改。这样，如果您需要，原始信息仍然存在。