应用错误收集

BERT旨在与上下文中的单词配合使用。没有上下文，类似BERT的模型就等同于简单的word2vec查找（存在花哨的标记化，但是我不知道它如何与希伯来语一起使用-可能不是很有效）。因此，如果您真的想在分类器中使用分布功能，则可以改用预训练的word2vec模型-它比BERT更简单，功能也同样强大。

但是我不确定它是否还能正常工作。 Word2vec及其等效项（例如不带上下文的BERT）对单词的内部结构了解不多，仅对单词的内部上下文了解不多。但是，在您遇到的问题中，单词结构比可能的上下文更重要。例如，单词בלוטת（gland）或דם（blood）或סוכר（sugar）经常在与胰岛素相同的上下文中出现，但是בלוטת和דם是希伯来语，而סוכר是英语（好的，最初是阿拉伯语，但是我们可能不感兴趣太古老了）。您只是无法仅根据上下文进行预测。

那么，为什么不从一些简单的模型（例如逻辑回归，甚至是朴素的贝叶斯）开始，而不是简单的特征（例如，字符n元语法）呢？还可以添加分布特征（我的意思是w2v），因为它们可以讲述主题，主题可以提供信息（例如，在医学和一般技术领域，英语单词可能比其他领域相对多）。

使用BERT来检测给定单词的语言

1 个答案: