NLTK - 什么时候将文本规范化?

时间:2011-07-20 20:01:52

标签: python nlp nltk

我已经收集了我计划用于语料库的数据,但是我对是否应该将文本规范化感到困惑。我计划标记&将来的语料库大块化。一些NLTK的语料库都是小写的,而其他的则不是。

有人可以对这个问题有所了解吗?

1 个答案:

答案 0 :(得分:8)

通过“规范化”你只是意味着把所有东西都小写?

关于是否小写所有内容的决定实际上取决于您打算做什么。出于某些目的,降低所有内容的效果会更好,因为它会降低数据的稀疏性(大写单词很少见,并且可能会混淆系统,除非您有大量语料库,以便大写单词的统计数据是合适的)。在其他任务中,案例信息可能很有价值。

此外,您还需要做出类似的其他注意事项。例如,"can't"应该被视为["can't"]["can", "'t"]["ca", "n't"](我在不同的语料库中看到了所有三个)。那么7-year-old呢?这是一个长话吗?还是应该分开的三个词?

那就是说,没有理由重新格式化语料库。您可以让代码动态地进行这些更改。这样,如果您需要,原始信息仍然存在。