如何训练模型以按照预定义的含义对单词进行区分/分类?

时间:2019-11-02 15:51:21

标签: machine-learning deep-learning nlp stanford-nlp

深度学习和自然语言处理中的语义分析通常与整个句子的含义有关,例如情感分析。在许多情况下,单词的含义可以通过句子结构来理解。例如,

  

您能从中告诉吗?

     

你能告诉我一些有关这件事吗?

有没有建立通过数据集训练模型的方法

word    meaning_id       sentence
tell    1                Can you tell this from that?
tell    2                Can you tell me something about this?

请注意,其目的仅仅是按照预定义的含义/示例对单词进行分类。

我使用Stanford CoreNLP,但我怀疑是否有这种可能性。任何深度学习程序都可以。

1 个答案:

答案 0 :(得分:0)

我能想到的是使用上下文化的WordEmbeddings。在给定上下文的情况下,这些是对单词的嵌入。这意味着,取决于上下文,一个单词将具有另一个嵌入。 BERT生成这样的量化嵌入。 可以假定这些嵌入在不同含义上有显着差异,但在单词的相同含义上却非常相似。 您将要做的是:

  1. 使用包含您的单词“ tell”的句子运行BERT
  2. 从BERT的最后一层提取“ tell”一词的嵌入
  3. 尝试将特定嵌入物聚类为不同的含义。如果您已经有了预定义的含义和一些例句,甚至可以尝试训练分类器。

Here是一个博客条目,显示了这种方法的可行性。