我想应用微调的Bert来计算句子之间的语义相似度。 我搜索了很多网站,但是我几乎没有在下游找到它。
我刚刚找到了 STS基准。 我想知道是否可以使用STS基准数据集来训练微调的bert模型,并将其应用于我的任务。 合理吗?
据我所知,有很多计算相似度的方法,包括余弦相似度,皮尔逊相关度,曼哈顿距离等。 如何选择语义相似性?
答案 0 :(得分:1)
此外,如果您要进行二进制裁决(“相似”是/否),则BERT实际上是使用MRPC(Microsoft Research Paraphrase Corpus)对该任务进行基准测试的。 谷歌github存储库https://github.com/google-research/bert包括对此的一些示例调用,请参见--task_name = MRPC在句子(和句子对)分类任务部分。
答案 1 :(得分:0)
作为前面的一般性评论,我想强调一下,此类问题可能不被视为Stackoverflow的主题,请参见How to ask。但是,有一些相关站点可能更适合这些问题(无代码,理论上的PoV),即AI Stackexchange或Cross Validated。
如果您查看由Mueller和Thyagarajan撰写的rather popular paper in the field,它关注在LSTM上学习句子相似性,那么他们使用的是密切相关的数据集(SICK dataset),该数据集也由SemEval托管。竞赛,并与2014年的STS基准保持一致。
其中之一应该是可以调整的合理设置,但是STS已经运行了多年,因此可用的培训数据量可能会更大。
作为该主题的很好的入门,我也强烈推荐Adrien Sieg撰写的Medium文章(请参阅here,该文章随附了GitHub参考。
对于语义相似性,我估计您最好对神经网络进行微调(或训练),因为您提到的大多数经典相似性度量都更加着重于标记相似性(因此,句法相似性,尽管不一定如此)。另一方面,语义有时在一个单词上可能有很大的不同(可能是一个否定词,或者两个单词的互换句子位置),这很难用静态方法来解释或评估。