负采样和子采样

时间:2017-10-05 16:37:38

标签: sampling subsampling

我听到了很多与word2vec一起使用的术语“负采样”和“子采样”。

在我试图弄乱word2vec之前,我试图回顾一下参考单词嵌入的论文,并从头开始。纸质小道让我来到这里:

https://gul.gu.se/public/pp/public_courses/course77642/published/1497871737091/resourceId/37659332/content/UploadedResources/lecture10-slides-word2vec_sungmin_VT17.pdf(Google,如果您不信任链接,则“有效估算向量空间中的Word表示”。)

并声明:

enter image description here

(我熟悉所有子弹点减去第一个)

我在负采样和子采样中发现的唯一内容已经包含在关于word2vec的文章中,这就是我想要避免的。

如果有人能够解释这些条款或指出我正确的方向,那将非常感激:)。

编辑:它自己的子采样标签导致了这个定义:

“子采样是一种类似于引导程序的重采样程序,其中使用替换绘制的观察数量少于所有观察结果(与教科书引导程序方法中使用的原始样本大小相比)。要从现有数据中创建样本,请考虑而是“取样”标签。“ ---这个具体的例子很棒。

1 个答案:

答案 0 :(得分:1)

我终于找到了负面采样的东西,如果你学习了计算机科学,并且知道所有关于“连接点”的图表,这对于任何想要一个人的人来说都是一个非常有用的链接。具体的例子。

https://www.safaribooksonline.com/library/view/mastering-java-for/9781782174271/056ce305-83f2-4efe-993a-b549b7ea3133.xhtml

(或google:“掌握java for data science negative sampling”)

对于子采样,我会将它用于nlp,所以这是最相关的:

enter image description here

(摘自https://www.safaribooksonline.com/library/view/python-natural-language/9781787121423/f7035ac3-7624-4b80-b464-64ed8a7f252a.xhtml