如何测量单词共现频率

时间:2019-03-05 01:03:40

标签: nlp

在单词共现中如何定义频率?

是两个单词一起出现的次数/语料库中的文档总数

OR

两个单词一起出现的次数/(第一个单词出现的次数+第二个单词出现的次数)?

1 个答案:

答案 0 :(得分:0)

“ GloVe模型是在全局单词-单词共现矩阵的非零条目上训练的,该矩阵列出了单词在给定语料库中彼此共现的频率。” -来自https://nlp.stanford.edu/projects/glove/(GloVe发行商)。 我假设您是指GloVe模型所使用的同时出现。数学上: https://towardsdatascience.com/emnlp-what-is-glove-part-ii-9e5ad227ee0 您有P(i | j)= Xij / Xi w / Xij =共现次数,Xi =任何单词在单词i的上下文中出现的次数。注意Xi = Sum_k Xik其中k是每个单词。