使用现有的文本分类(监督)技术,为什么我们不将文本中的命名实体(NE)视为培训和测试的特征?您认为我们可以使用NE作为功能来提高精度吗?
答案 0 :(得分:1)
这取决于您正在使用的域。您必须根据域定义功能。在搜索引擎中说你正在努力学习排名问题,产生动态排名,NE不会给你带来任何好处。它更大程度上取决于您正在使用的域以及定义的输出分类标签(监督学习)。
现在说你正在研究有关足球,电影或政治等方面的文件分类。在这种情况下,命名实体可以工作。我将在这里给你举个例子,比如你正在使用一个神经网络,将文件分类为足球,电影,政治等。现在说文件出现“莱昂内尔梅西被邀请参加”社交网络“的总理,也在场包括Jesse Eisenberg,Andrew Garfield和Justin Timberlake在内的演员和工作人员“这里命名实体(输入功能)和电影(输出定义)之间的联系将更加强大,因此它将被归类为电影上的文档。
另一个例子,我们的文件说:“汤姆克鲁斯正在电影中扮演莱昂内尔梅西的角色”最后一场足球比赛。“这里有好处说你的神经网络已经知道当一个演员和足球运动员聚在一起时文档很有可能成为一部电影。再次依赖于数据和培训,它可能是另一种方式(但这就是所学的一切;看过去的数据)
所以我的答案是尝试一下,没有人阻止你将命名实体作为功能。它可能对您正在使用的域有所帮助。