标签: python-3.x nltk
我打算根据与我特定的现实世界需求相关的短语构建我自己的自定义语料库。它将被标记和分块。 我的问题是:语料库应该有多大,构建语料库时的最佳实践是什么。 我猜测人们使用nltk用于许多不同的业务领域,那么使用内部nltk标记器而不是自定义标记符是一个不错的选择吗?