我必须为命名实体识别项目创建训练数据集。
例如,我有文字
"Last year, I was in London where I saw Tom"
培训数据应
"Last year, I was in <ENAMEX TYPE="LOCATION">London</ENAMEX> where I saw
<ENAMEX TYPE="NAME">Tom</ENAMEX>"
手动操作很容易,但是当有大量数据时需要时间。我不能使用开放式套装。我有小的训练数据集,但我应该扩展它。
如何通过扩展小型训练数据集来创建更大的训练数据集?是否有一些现成的包或开放项目?或者你建议采用不同的方法吗?