使用条件随机场进行命名实体识别

时间:2009-12-27 11:46:07

标签: metadata named-entity-recognition information-extraction crf

什么是条件随机字段? 完全条件随机字段如何将正确的名称标识为结构化或非结构化文本中的个人,组织或地点?

例如:此产品由StackOverFlow Inc.订购。

条件随机字段如何将StackOverFlow Inc.识别为一个组织?

2 个答案:

答案 0 :(得分:16)

CRF是一种判别性,批量,标记模型,与最大熵Markov模型属于同一类。

完整的解释是书本长度。

简短说明如下:

  1. 人类注释200-500K字的文字,标记实体。
  2. 人类选择一组他们希望指示实体的功能。像大写一样的东西,或者是否在带有标记的训练集中看到了这个词。
  3. 训练程序计算所有特征的出现次数。
  4. CRF算法的核心搜索适合计数的所有可能模型的空间,以找到一个相当不错的模型。
  5. 在运行时,解码器(可能是维特比解码器)查看一个句子并决定分配给每个单词的标签。
  6. 这部分的难点在于步骤4中的特征选择和搜索算法。

答案 1 :(得分:0)

很明白,你必须学习很多东西 首先

了解马尔可夫和贝叶斯网络的基础  在线课程由daphne coller提供课程 https://class.coursera.org/pgm/lecture/index

CRF是一种特殊类型的马尔可夫网络,我们有观察和隐藏状态 目标是找到未观察到的变量的最佳状态分配,也称为MAP问题 准备好大量的概率和优化。 :-)