应用错误收集

我正准备在专门的语料库上实施有监督的命名实体识别。这意味着我需要通过命名实体来标记原始文本。看起来像一个tagged token作为元组的NLTK事件“由令牌和标签组成。”因此，我的计划是从文件中提取一些随机行，在每行上添加一个单词，手动标记作为实体的单词以生成csv文件 - 然后再读取csv文件以创建令牌/标记元组。

然后执行以下操作（遵循文档中的example）：

supervised = []
for line in file:
   token, tag = line.split(",")
   supervised.append(token, tag))

featuresets = [(feature_extractor(token), tag) for (token, tag) in supervised]

NLP从业者通常会这样做吗？有一个更好的方法吗？有金标准吗？人们是否在语料库结构中标记实体？有点像这样：Creating a new corpus with NLTK

是否有一种既定方法可以使用NLTK标记您自己的语料库进行监督学习？

0 个答案: