何时需要实体替换才能进行关系提取?

时间:2018-09-30 18:22:13

标签: machine-learning scikit-learn nlp nltk

在此tutorial“训练机器学习分类器以从医学文献中提取关系”中,作者进行了实体替换,因为“我们不希望模型根据特定的实体名称进行学习,但是我们希望它根据文本的结构来学习。”

这通常是正确的还是取决于数据集或使用的模型?

1 个答案:

答案 0 :(得分:0)

实体替换与其他文本转换技术(包括词干和词根化)非常相似,通常是关系提取过程的一部分,因为它会增加每个要素的观察次数。比例的增加可能会帮助解决您的问题,具体取决于数据集的大小,要素的质量,要素提取的类型以及模型的复杂性。

一个好的经验法则是根据对数据集的理解来定义您的目标,然后定义您的可接受的表示形式。例如,给定的教程着手了解miRNA与基因之间的关系。作者还可以,在相同的实体名称下将miRNA-335,miRNA-342,miRNA-100等分组。

在场景中,您对语料库不了解,可以在不替换实体的情况下开始,检查结果并了解模型的偏差方差折衷。然后,如果需要,请尝试使用一些聚类技术后尝试更换实体。