Question

我一直在寻找，但我没有发现任何相关内容。

我遇到了以下问题：我想训练一个模型，输入我得到一个自定义BIO标签。例如，对于输入“我父亲住在曼哈顿，他的名字是Anthony Clark”，以及LOC和PER类，输出必须是：

[(My, O),(dad,O), (lives, O), (in,O), (Manhattan, B-LOC), (, , O), (his,O), (name,O), (is,O), (Anthony, B-PER), (Clark,I-PER)]

是否可以使用NTLK？我应该包括哪些功能？

Answer 1

我发现我不需要NLTK;但POS标签器可用作培训的功能。有比使用默认的NLTK PO标签器更好的选择，例如Stanford Tagger或Freeling。