Question

我必须为命名实体识别项目创建训练数据集。

例如，我有文字

"Last year, I was in London where I saw Tom"

培训数据应

"Last year, I was in <ENAMEX TYPE="LOCATION">London</ENAMEX> where I saw  
<ENAMEX TYPE="NAME">Tom</ENAMEX>"

手动操作很容易，但是当有大量数据时需要时间。我不能使用开放式套装。我有小的训练数据集，但我应该扩展它。

如何通过扩展小型训练数据集来创建更大的训练数据集？是否有一些现成的包或开放项目？或者你建议采用不同的方法吗？

Answer 1

首先，如果您还没有，请使用像brat这样的工具来加快注释速度。

因为看起来你标记的标记只能以一种方式使用，所以你可以列出它们并自动注释它们。例如，London始终是您所在的位置，因此您可以将London的所有实例替换为<ENAMEX TYPE="LOCATION">London</ENAMEX>。请注意不起作用的情况，如土耳其或中国（We ate turkey sandwiches off china plates.）。

有一个名为Prodigy的测试项目是为了让模型脱颖而出而设计的，虽然我没有机会尝试它，但值得一看。

命名实体识别的数据集

1 个答案: