我已经收集了我计划用于语料库的数据,但是我对是否应该将文本规范化感到困惑。我计划标记&将来的语料库大块化。一些NLTK的语料库都是小写的,而其他的则不是。
有人可以对这个问题有所了解吗?
答案 0 :(得分:8)
通过“规范化”你只是意味着把所有东西都小写?
关于是否小写所有内容的决定实际上取决于您打算做什么。出于某些目的,降低所有内容的效果会更好,因为它会降低数据的稀疏性(大写单词很少见,并且可能会混淆系统,除非您有大量语料库,以便大写单词的统计数据是合适的)。在其他任务中,案例信息可能很有价值。
此外,您还需要做出类似的其他注意事项。例如,"can't"
应该被视为["can't"]
,["can", "'t"]
或["ca", "n't"]
(我在不同的语料库中看到了所有三个)。那么7-year-old
呢?这是一个长话吗?还是应该分开的三个词?
那就是说,没有理由重新格式化语料库。您可以让代码动态地进行这些更改。这样,如果您需要,原始信息仍然存在。