我正准备在专门的语料库上实施有监督的命名实体识别。这意味着我需要通过命名实体来标记原始文本。看起来像一个tagged token作为元组的NLTK事件“由令牌和标签组成。”因此,我的计划是从文件中提取一些随机行,在每行上添加一个单词,手动标记作为实体的单词以生成csv文件 - 然后再读取csv文件以创建令牌/标记元组。
然后执行以下操作(遵循文档中的example):
supervised = []
for line in file:
token, tag = line.split(",")
supervised.append(token, tag))
featuresets = [(feature_extractor(token), tag) for (token, tag) in supervised]
NLP从业者通常会这样做吗?有一个更好的方法吗?有金标准吗?人们是否在语料库结构中标记实体?有点像这样:Creating a new corpus with NLTK