NLP

时间:2015-06-01 10:51:18

标签: vector nlp distribution

下面有一个问题说明:

// --------问题开始---------------------

考虑以下由三个句子组成的小型语料库:

The judge struck the gavel to silence the court. Buying the cheap saw is false economy. The nail was driven in when the hammer struck it hard.

使用分布相似性来确定单词木槌的平均值是否更相似 用锤子或锯子。要计算分布相似性,您必须(1)使用词袋 在目标周围的 a±2 window 中作为特征,(2)不以任何方式改变上下文单词 (例如,通过阻止或删除停用词)和(3)使用Dice度量进行比较 特征向量。确保显示您工作的所有阶段。

// --------问题结束---------------------

我不明白(1)中的±2窗口是什么。有人会为我解释一下吗?非常感谢你们。

1 个答案:

答案 0 :(得分:0)

A±2窗口表示左侧2个字,目标字右侧2个字。对于目标词“沉默”,窗口将是[“gavel”,“to”,“the”,“court”],而对于“hammer”,它将是[“when”,“the”,“hitck” ,“它”]。