归一化模型生成的Fasttext词嵌入向量

时间:2018-10-02 13:40:40

标签: python tensorflow normalization word-embedding fasttext

我目前正在使用FastText来获取某些输入文本数据的词嵌入,以捕获它们之间的相似性,并将这些嵌入作为输入输入到NER任务的神经网络中。 我首先尝试使用fastText .vec文件,并且能够从它们中获得良好的相似性结果,然后我尝试使用.bin模型文件,以便我也可以从词汇之外的术语中获取嵌入内容但是我注意到从.vec和.bin文件生成的向量是不同的。 .vec文件包含裁剪到[-1,1]范围的嵌入,而对于.bin文件中包含的嵌入来说,这不是正确的。 使用.bin文件,我得到的结果很糟糕,所以我试图弄不清楚这是否是由于这些向量(.bin)没有被标准化的事实。

是否有使用Python规范[-1,1]范围内的向量的好方法?

谢谢。

1 个答案:

答案 0 :(得分:0)

只需将数据重新缩放到范围[-1,1]。希望它会有所帮助。

$(window).bind('wheel mousewheel', function(event) {
      if (event.originalEvent.deltaY >= 0) {
          console.log('Scroll up');
      }
      else {
          console.log('Scroll down');
      }
  });