machine-learning - 德语文本的文本相似性-使用哪种语言模型以及如何进行训练？

我想比较德语文本（一个或多个句子或整个业务对话文档的整个段落）与一组约1000个预定义的德语文本块之间的相似性。所以我会

进行一些预处理（删除停用词等）
为文本块以及给定的文本块创建句子或段落的嵌入
比较相似度以计算指标（例如，余弦相似度）
通过算法或使用简单的NN进行分类，选择最相似的文本块或最相似的文本块列表

为了生成嵌入，我想到了一种最先进的语言模型，例如BERT，Sentence-BERT或GPT-2。但是我不知道哪种方法更适合这项任务，尤其是德语文本。我找到了一篇有关文本相似性（https://dl.acm.org/doi/10.5555/3016100.3016291）的暹罗LSMT的论文，以及使用两个Sentence-BERT而不是LSTM（https://arxiv.org/abs/1908.10084）的一种较新的暹罗方法。暹罗网络通过英语句子对数据集进行了微调。是否也有带有句子对的德语数据集？而且由于像BERT这样的大型语言模型应该为开箱即用的相似句子生成相似的嵌入，这种微调是否必要？那么，在公司的文本语料库上而不是句子对上训练BERT或GPT-2就足够了吗？也许暹罗网络架构无论如何对我们都不起作用，因为出于性能方面的原因，应该更好地预先计算1000个文本块的嵌入，因此只需要与文档的文本部分进行比较即可。

非常感谢您的提前帮助！

德语文本的文本相似性-使用哪种语言模型以及如何进行训练？

0 个答案: