如何在NLP中表示句子和文本?

时间:2015-11-30 08:59:56

标签: nlp

句子只是单词的序列。这些序列可能有很多含糊之处。自然语言处理的主要目标之一是将句子表示为具有更多结构和更少模糊的东西。

所以,我的问题是:表达句子的方法是什么?我认为有很多替代方法。他们之间有什么区别?他们有自己的优点和缺点吗?

1 个答案:

答案 0 :(得分:1)

这是一个非常广泛的问题,但可能是一个充分的答案:离散的vs.连续表示是两种不同的范例。离散版本是单词由对应于它们在字典中的位置的索引表示的地方。这导致每个句子都有一个向量表示,其中向量(维度:|词汇|)非常稀疏,其单词为1,其他地方为零。

另一种范例是用通过神经网络学习的连续实值的向量替换离散值的向量表示。这是从LSA开始的,是word2vec背后的总体思路,也是nlp社区过去2 - 3年内许多伟大作品的基础。