pypi docs for a google ngram downloader说"有时您需要数据集上的汇总数据。例如,建立共生矩阵。"
维基百科的共谋矩阵与图像处理和谷歌搜索有关,这个词似乎带来了某种搜索引擎优化技巧。
那么什么是共生矩阵(在计算语言学/ NLP中)?他们如何在NLP中使用?
答案 0 :(得分:11)
一般而言,共生矩阵将在行(ER)和列(EC)中具有特定实体。此矩阵的目的是显示每个ER在与每个EC相同的上下文中出现的次数。 因此,为了使用共生矩阵,您必须定义您的entites以及它们共同出现的上下文。
在NLP中,最经典的方法是将每个实体(即行和列)定义为文本中存在的单词,将上下文定义为句子。
考虑以下文字:
玫瑰是红色的。天空是蓝色的。
使用前面描述的经典方法,我们将得到以下矩阵:
| Roses | are | red | Sky | is | blue
Roses | 1 | 1 | 1 | 0 | 0 | 0
are | 1 | 1 | 1 | 0 | 0 | 0
red | 1 | 1 | 1 | 0 | 0 | 0
Sky | 0 | 0 | 0 | 1 | 1 | 1
is | 0 | 0 | 0 | 1 | 1 | 1
Blue | 0 | 0 | 0 | 1 | 1 | 1
这里,每个单元格表示两个项目共同发生与否。您可以使用它出现的次数或更复杂的方法来替换它。您也可以通过将名词放在行中而不是每个单词的行和形容词来更改实体本身。
这些矩阵的最明显用途是它们能够在概念之间提供链接。我们假设您正在进行产品评论。为简单起见,我们还假设每个评论仅由短句组成。你会有类似的东西:
ProductX很棒。
我讨厌产品。
将这些评论表示为一个共现矩阵,可以让您将产品与赞赏联系起来。
答案 1 :(得分:3)