我正致力于预测一对文本之间的语义文本相似性(SemEval 2017 Task-1)。相似性得分(输出)是[0,5]之间的连续值。因此,神经网络模型(下面的链接)在最后一层中有6个单元用于在值[0,5]之间进行预测。使用的目标函数是Pearson相关系数,并且使用softmax激活。现在,为了训练模型,我如何将目标输出值提供给模型?由于有6个输出类,我应该发送输出的单热编码向量。在这种情况下,我们如何将输出(可能是浮点值,如2.33)转换为长度为6的单热矢量?或者是否有任何其他方法来指定目标输出并训练模型?
答案 0 :(得分:0)
如果您尝试预测的值是连续定义的,那么最好将其配置为回归体系结构。这将更容易训练和解释,并将给你非整数预测(然后您可以随时使用桶或阈值)。
为此,请使用包含具有线性激活功能的单个神经元的图层替换softmax图层。然后,您可以使用输出中的实值相似性数字简单地训练此网络。对于丢失功能,您可以使用MSE / L2,除非您有其他原因。