我听到了很多与word2vec一起使用的术语“负采样”和“子采样”。
在我试图弄乱word2vec之前,我试图回顾一下参考单词嵌入的论文,并从头开始。纸质小道让我来到这里:
https://gul.gu.se/public/pp/public_courses/course77642/published/1497871737091/resourceId/37659332/content/UploadedResources/lecture10-slides-word2vec_sungmin_VT17.pdf(Google,如果您不信任链接,则“有效估算向量空间中的Word表示”。)
并声明:
(我熟悉所有子弹点减去第一个)
我在负采样和子采样中发现的唯一内容已经包含在关于word2vec的文章中,这就是我想要避免的。
如果有人能够解释这些条款或指出我正确的方向,那将非常感激:)。
编辑:它自己的子采样标签导致了这个定义:
“子采样是一种类似于引导程序的重采样程序,其中使用替换绘制的观察数量少于所有观察结果(与教科书引导程序方法中使用的原始样本大小相比)。要从现有数据中创建样本,请考虑而是“取样”标签。“ ---这个具体的例子很棒。
答案 0 :(得分:1)
我终于找到了负面采样的东西,如果你学习了计算机科学,并且知道所有关于“连接点”的图表,这对于任何想要一个人的人来说都是一个非常有用的链接。具体的例子。
(或google:“掌握java for data science negative sampling”)
对于子采样,我会将它用于nlp,所以这是最相关的: