使用BERT来检测给定单词的语言

时间:2019-06-23 10:48:19

标签: deep-learning nlp classification bert-language-model

我有希伯来语单词。其中一部分最初是英语,一部分是“希伯来英语”,这意味着这些单词最初来自英语,但使用希伯来语单词书写。 例如:希伯来语中的“胰岛素”是“אינסולין”(相同的语音)。

我有一个简单的二进制数据集。 X:单词(用希伯来语字符书写) y:如果该单词最初是英语并且使用希伯来语字符书写,则标签为1,否则为0

我尝试使用分类器,但是输入的是全文,而我的输入只是单词。

我不希望发生任何屏蔽,我只希望简单分类。

是否可以将BERT用于此任务?谢谢

1 个答案:

答案 0 :(得分:2)

BERT旨在与上下文中的单词配合使用。没有上下文,类似BERT的模型就等同于简单的word2vec查找(存在花哨的标记化,但是我不知道它如何与希伯来语一起使用-可能不是很有效)。因此,如果您真的想在分类器中使用分布功能,则可以改用预训练的word2vec模型-它比BERT更简单,功能也同样强大。

但是我不确定它是否还能正常工作。 Word2vec及其等效项(例如不带上下文的BERT)对单词的内部结构了解不多,仅对单词的内部上下文了解不多。但是,在您遇到的问题中,单词结构比可能的上下文更重要。例如,单词בלוטת(gland)或דם(blood)或סוכר(sugar)经常在与胰岛素相同的上下文中出现,但是בלוטת和דם是希伯来语,而סוכר是英语(好的,最初是阿拉伯语,但是我们可能不感兴趣太古老了)。您只是无法仅根据上下文进行预测。

那么,为什么不从一些简单的模型(例如逻辑回归,甚至是朴素的贝叶斯)开始,而不是简单的特征(例如,字符n元语法)呢?还可以添加分布特征(我的意思是w2v),因为它们可以讲述主题,主题可以提供信息(例如,在医学和一般技术领域,英语单词可能比其他领域相对多)。