德语文本的文本相似性-使用哪种语言模型以及如何进行训练?

时间:2020-09-19 17:11:28

标签: machine-learning deep-learning nlp bert-language-model sentence-similarity

我想比较德语文本(一个或多个句子或整个业务对话​​文档的整个段落)与一组约1000个预定义的德语文本块之间的相似性。 所以我会

  1. 进行一些预处理(删除停用词等)
  2. 为文本块以及给定的文本块创建句子或段落的嵌入
  3. 比较相似度以计算指标(例如,余弦相似度)
  4. 通过算法或使用简单的NN进行分类,选择最相似的文本块或最相似的文本块列表

为了生成嵌入,我想到了一种最先进的语言模型,例如BERT,Sentence-BERT或GPT-2。 但是我不知道哪种方法更适合这项任务,尤其是德语文本。 我找到了一篇有关文本相似性(https://dl.acm.org/doi/10.5555/3016100.3016291)的暹罗LSMT的论文,以及使用两个Sentence-BERT而不是LSTM(https://arxiv.org/abs/1908.10084)的一种较新的暹罗方法。暹罗网络通过英语句子对数据集进行了微调。 是否也有带有句子对的德语数据集? 而且由于像BERT这样的大型语言模型应该为开箱即用的相似句子生成相似的嵌入,这种微调是否必要?那么,在公司的文本语料库上而不是句子对上训练BERT或GPT-2就足够了吗? 也许暹罗网络架构无论如何对我们都不起作用,因为出于性能方面的原因,应该更好地预先计​​算1000个文本块的嵌入,因此只需要与文档的文本部分进行比较即可。

非常感谢您的提前帮助!

0 个答案:

没有答案