是否有一种既定方法可以使用NLTK标记您自己的语料库进行监督学习?

时间:2014-05-10 00:48:31

标签: nlp nltk

我正准备在专门的语料库上实施有监督的命名实体识别。这意味着我需要通过命名实体来标记原始文本。看起来像一个tagged token作为元组的NLTK事件“由令牌和标签组成。”因此,我的计划是从文件中提取一些随机行,在每行上添加一个单词,手动标记作为实体的单词以生成csv文件 - 然后再读取csv文件以创建令牌/标记元组。

然后执行以下操作(遵循文档中的example):

supervised = []
for line in file:
   token, tag = line.split(",")
   supervised.append(token, tag))

featuresets = [(feature_extractor(token), tag) for (token, tag) in supervised]

NLP从业者通常会这样做吗?有一个更好的方法吗?有金标准吗?人们是否在语料库结构中标记实体?有点像这样:Creating a new corpus with NLTK

0 个答案:

没有答案