Question

我是自然语言处理的新手，我对使用的术语感到困惑。

什么是标记化？ POS标签？实体识别？

标记化只是将文本分成可能具有含义或赋予这些部分含义的部分？意思是什么，当我确定某事物是名词，动词还是反对时，这个名字是什么。如果我想分成日期，名字，货币？

我需要一个关于NLP中使用的区域/术语的简单解释。

Answer 1

让我们使用像

这样的例子

My cat's name is Pat.  He likes to sit on the mat.

标记化是将这些句子带入我们称之为令牌的句子中，这些句子基本上就是单词。这句话的标记是my, cat's, name, is, pat, he, likes, to sit, on, the, mat。（有时您可能会将cat's视为两个令牌;这取决于个人偏好和意图大声笑。）

POS代表词性，因此标记这些句子的词性将是通过一个称为POS标记器的程序运行它，它将label句子中的每个标记为其部分的语音。在这种情况下，由斯坦福大学的一个小组编写的标记器的输出是：

My_PRP$ cat_NN 's_POS name_NN is_VBZ Pat_NNP ._.
He_PRP likes_VBZ to_TO sit_VB on_IN the_DT mat_NN ._.

（以下是将cat's视为两个令牌的好例子。）

实体识别通常称为命名实体识别。这是一个采用像我们这样的文本并识别大多数专有名词的过程，但也可以包括日期或其他任何你教授识别器的东西，好吧，认识。对于我们的示例，命名实体识别系统将插入类似

的标记

<NAME>Pat</NAME>

我们猫的名字。如果有另一句话，如

Pat is a part-time consultant for IBM in Yorktown Heights, New York.

现在识别器会标记三个实体（自Pat标记两次以来共有四个实体）。

<NAME>Pat</NAME>
<ORGANIZATION>IBM</ORGANIZATION>
<LOCATION>Yorktown Heights, New York</LOCATION>

现在所有这些工具实际上是如何工作的另一个故事。：）

Answer 2

添加到dmn的解释：

一般来说，NLP中应该关注两个主题：

统计与基于规则的分析
轻量级与重量级分析

统计分析使用统计机器学习技术对文本进行分类，并且通常具有良好的精确度和良好的回忆性。 基于规则的分析技术基本上使用手工制作的规则，并且具有非常好的精确度但可靠的召回（基本上它们可以识别规则中的情况，但没有别的）。

轻量级与重量级分析是您在该领域中看到的两种方法。一般来说，学术工作是重量级的，包括解析器，花哨的分类器和许多非常高科技的NLP东西。在工业界，总的来说，重点是数据，而且很多学术内容都很差，超出标准统计或机器学习技术并没有给你带来太多帮助。例如，解析在很大程度上是无用的（并且很慢），因此关键字和ngram分析实际上非常有用，尤其是当您拥有大量数据时。例如，谷歌翻译显然不是那种花哨的幕后花絮 - 他们只是拥有如此多的数据，无论翻译软件多么精致，他们都可以粉碎其他人。

这个问题的结果是在工业中有很多机器学习和数学，但是使用NLP的东西并不是非常复杂，因为复杂的东西确实效果不好。最喜欢的是使用用户数据，例如点击相关主题和机械土耳其......这非常有效，因为人们在理解自然语言方面比计算机好得多。

解析将句子分解为短语，例如动词短语，名词短语，介词短语等，并获得语法树。您可以使用online version of the Stanford Parser来演示示例，并了解解析器的功能。例如，假设我们有句子

My cat's name is Pat.

然后我们进行POS标记：

My/PRP$ cat/NN 's/POS name/NN is/VBZ Pat/NNP ./.

使用POS标签和训练有素的统计解析器，我们得到一个解析树：

(ROOT
  (S
    (NP
      (NP (PRP$ My) (NN cat) (POS 's))
      (NN name))
    (VP (VBZ is)
      (NP (NNP Pat)))
    (. .)))

我们也可以做一个稍微不同类型的解析，称为依赖解析：

poss(cat-2, My-1)
poss(name-4, cat-2)
possessive(cat-2, 's-3)
nsubj(Pat-6, name-4)
cop(Pat-6, is-5)

N-Grams 基本上是长度为n的相邻单词集。您可以在Google的数据here中查看n-gram。你也可以做大量用于拼写纠正的字符n-gram。

情感分析正在分析文字，以提取人们对某事物的感受或提及的事物（例如品牌）。这涉及到很多关注表达情感的词语。

语义分析正在分析文本的含义。这通常采用分类法和本体论的形式，你将概念组合在一起（狗，猫属于动物和宠物），但它是一个非常不发达的领域。像WordNet和Framenet这样的资源在这里很有用。

Answer 3

回答问题的更具体部分：标记化将文本分解为部分（通常是单词），而不是过多地关注它们的含义。 POS标记在可能的词性（名词，动词等）之间消除歧义，它在标记化之后发生。识别日期，名称等被命名为实体识别（NER）。

有人可以简单解释一下自然语言处理的要素吗？

3 个答案: