我想识别我所拥有的文本上的一些实体,并且我发现了许多算法(NaiveBayes,隐马尔可夫模型,条件随机场等),但似乎几乎所有算法都需要大量的训练数据来对实体进行分类
我想知道是否有一些算法可以在训练数据中没有文本的情况下识别,但可能只有代表我想要识别的数据的单词,或者某些字符串模式或其他方式。
我唯一想避免的是将大量文本作为训练数据的必要性。
答案 0 :(得分:2)
如果你有一个你想要找到的命名实体的简短列表(通常称为“地名词典”)并且不想手动注释训练数据,你应该研究引导命名实体识别的工作。您可以使用bootstrapping来扩展地名词典或开发命名实体识别器。我在快速搜索中找到的一些示例方法是以下文章:
对于命名实体识别的主动学习也有相当多的研究,如果你决定做一些手动注释,它可以显着减少需要注释的训练数据量。