从fastText了解wordNgram

时间:2019-09-12 13:20:58

标签: word2vec fasttext

我试图了解什么是fastText中的 -wordNgrams 参数。

让我们以以下文本为例:

The quick brown fox jumps over the lazy dog

现在我们在“棕色”字下的上下文窗口大小为2,那么我们将有以下示例

  • (棕色)
  • (棕色,快速)
  • (棕色,狐狸)
  • (棕色,跳跃)

如果我们将-wordNgrans设置为2,是否可以在词汇表中找到单词'brown_fox'?因此,我们的训练样本现在将是:

  • (brown_fox,)
  • (棕色狐狸,快速)
  • (棕色狐狸,跳)
  • (brown_fox,结束)

对吗?

我没有找到关于此的任何解释。

1 个答案:

答案 0 :(得分:1)

我在想同样的问题。

我发现一个issue,上面写着“单词n-gram仅在监督模式下使用”,因此在非监督模式下设置wordNgrams = 2无效。

然后我自己进行测试:

./fasttext skipgram -input data.txt -output test -dim 50 -wordNgrams 2 -loss hs

cut -d' ' -f1 test.vec | vocab.txt

结果是,vocab.txt中只有一个单词和一个子单词。