有人可以简单解释一下自然语言处理的要素吗?

时间:2011-07-28 05:25:08

标签: nlp tokenize

我是自然语言处理的新手,我对使用的术语感到困惑。

什么是标记化? POS标签?实体识别?

标记化只是将文本分成可能具有含义或赋予这些部分含义的部分?意思是什么,当我确定某事物是名词,动词还是反对时,这个名字是什么。如果我想分成日期,名字,货币?

我需要一个关于NLP中使用的区域/术语的简单解释。

3 个答案:

答案 0 :(得分:8)

让我们使用像

这样的例子
My cat's name is Pat.  He likes to sit on the mat.

标记化是将这些句子带入我们称之为令牌的句子中,这些句子基本上就是单词。这句话的标记是my, cat's, name, is, pat, he, likes, to sit, on, the, mat。 (有时您可能会将cat's视为两个令牌;这取决于个人偏好和意图大声笑。)

POS代表词性,因此标记这些句子的词性将是通过一个称为POS标记器的程序运行它,它将label句子中的每个标记为其部分的语音。在这种情况下,由斯坦福大学的一个小组编写的标记器的输出是:

My_PRP$ cat_NN 's_POS name_NN is_VBZ Pat_NNP ._.
He_PRP likes_VBZ to_TO sit_VB on_IN the_DT mat_NN ._.

(以下是将cat's视为两个令牌的好例子。)

实体识别通常称为命名实体识别。这是一个采用像我们这样的文本并识别大多数专有名词的过程,但也可以包括日期或其他任何你教授识别器的东西,好吧,认识。对于我们的示例,命名实体识别系统将插入类似

的标记
<NAME>Pat</NAME>

我们猫的名字。如果有另一句话,如

Pat is a part-time consultant for IBM in Yorktown Heights, New York.

现在识别器会标记三个实体(自Pat标记两次以来共有四个实体)。

<NAME>Pat</NAME>
<ORGANIZATION>IBM</ORGANIZATION>
<LOCATION>Yorktown Heights, New York</LOCATION>

现在所有这些工具实际上是如何工作的另一个故事。 :)

答案 1 :(得分:7)

添加到dmn的解释:

一般来说,NLP中应该关注两个主题:

  1. 统计与基于规则的分析

  2. 轻量级与重量级分析

  3. 统计分析使用统计机器学习技术对文本进行分类,并且通常具有良好的精确度和良好的回忆性。 基于规则的分析技术基本上使用手工制作的规则,并且具有非常好的精确度但可靠的召回(基本上它们可以识别规则中的情况,但没有别的)。

    轻量级与重量级分析是您在该领域中看到的两种方法。一般来说,学术工作是重量级的,包括解析器,花哨的分类器和许多非常高科技的NLP东西。在工业界,总的来说,重点是数据,而且很多学术内容都很差,超出标准统计或机器学习技术并没有给你带来太多帮助。例如,解析在很大程度上是无用的(并且很慢),因此关键字和ngram分析实际上非常有用,尤其是当您拥有大量数据时。例如,谷歌翻译显然不是那种花哨的幕后花絮 - 他们只是拥有如此多的数据,无论翻译软件多么精致,他们都可以粉碎其他人。

    这个问题的结果是在工业中有很多机器学习和数学,但是使用NLP的东西并不是非常复杂,因为复杂的东西确实效果不好。最喜欢的是使用用户数据,例如点击相关主题和机械土耳其......这非常有效,因为人们在理解自然语言方面比计算机好得多。

    解析将句子分解为短语,例如动词短语,名词短语,介词短语等,并获得语法树。您可以使用online version of the Stanford Parser来演示示例,并了解解析器的功能。例如,假设我们有句子

    My cat's name is Pat.
    

    然后我们进行POS标记:

    My/PRP$ cat/NN 's/POS name/NN is/VBZ Pat/NNP ./.
    

    使用POS标签和训练有素的统计解析器,我们得到一个解析树:

    (ROOT
      (S
        (NP
          (NP (PRP$ My) (NN cat) (POS 's))
          (NN name))
        (VP (VBZ is)
          (NP (NNP Pat)))
        (. .)))
    

    我们也可以做一个稍微不同类型的解析,称为依赖解析:

    poss(cat-2, My-1)
    poss(name-4, cat-2)
    possessive(cat-2, 's-3)
    nsubj(Pat-6, name-4)
    cop(Pat-6, is-5)
    

    N-Grams 基本上是长度为n的相邻单词集。您可以在Google的数据here中查看n-gram。你也可以做大量用于拼写纠正的字符n-gram。

    情感分析正在分析文字,以提取人们对某事物的感受或提及的事物(例如品牌)。这涉及到很多关注表达情感的词语。

    语义分析正在分析文本的含义。这通常采用分类法和本体论的形式,你将概念组合在一起(狗,猫属于动物和宠物),但它是一个非常不发达的领域。像WordNet和Framenet这样的资源在这里很有用。

答案 2 :(得分:3)

回答问题的更具体部分:标记化将文本分解为部分(通常是单词),而不是过多地关注它们的含义。 POS标记在可能的词性(名词,动词等)之间消除歧义,它在标记化之后发生。识别日期,名称等被命名为实体识别(NER)。