BERT作为服务(https://github.com/hanxiao/bert-as-service)允许提取句子级嵌入。假设我有一个经过预训练的LSA模型,该模型为我提供了300维的字向量,那么我试图了解在尝试比较两个句子的语义一致性时,哪种情况下LSA模型的性能优于BERT?
我想不出LSA对于这种用例会更好的原因-因为LSA只是对大字词矩阵的压缩。
答案 0 :(得分:0)
BERT需要具有序列长度的二次存储,并且仅在成对句子上训练。在处理非常长的句子时,这可能会很不方便。
对于LSA,您只需要单词袋向量,该向量的长度实际上是恒定的。对于非常长的文档,LSA可能仍然是更好的选择。