我试图了解什么是fastText中的 -wordNgrams 参数。
让我们以以下文本为例:
The quick brown fox jumps over the lazy dog
现在我们在“棕色”字下的上下文窗口大小为2,那么我们将有以下示例
如果我们将-wordNgrans设置为2,是否可以在词汇表中找到单词'brown_fox'?因此,我们的训练样本现在将是:
对吗?
我没有找到关于此的任何解释。
答案 0 :(得分:1)
我在想同样的问题。
我发现一个issue,上面写着“单词n-gram仅在监督模式下使用”,因此在非监督模式下设置wordNgrams = 2无效。
然后我自己进行测试:
./fasttext skipgram -input data.txt -output test -dim 50 -wordNgrams 2 -loss hs
cut -d' ' -f1 test.vec | vocab.txt
结果是,vocab.txt
中只有一个单词和一个子单词。