Question

我目前正在使用FastText来获取某些输入文本数据的词嵌入，以捕获它们之间的相似性，并将这些嵌入作为输入输入到NER任务的神经网络中。我首先尝试使用fastText .vec文件，并且能够从它们中获得良好的相似性结果，然后我尝试使用.bin模型文件，以便我也可以从词汇之外的术语中获取嵌入内容但是我注意到从.vec和.bin文件生成的向量是不同的。 .vec文件包含裁剪到[-1,1]范围的嵌入，而对于.bin文件中包含的嵌入来说，这不是正确的。使用.bin文件，我得到的结果很糟糕，所以我试图弄不清楚这是否是由于这些向量（.bin）没有被标准化的事实。

是否有使用Python规范[-1，1]范围内的向量的好方法？

谢谢。

Answer 1

只需将数据重新缩放到范围[-1，1]。希望它会有所帮助。

$(window).bind('wheel mousewheel', function(event) {
      if (event.originalEvent.deltaY >= 0) {
          console.log('Scroll up');
      }
      else {
          console.log('Scroll down');
      }
  });

归一化模型生成的Fasttext词嵌入向量

1 个答案: