Question

我想训练word2vec和fasttext以获得我拥有的特定数据集的向量。

我的模型应将什么作为输入？

我的文件是这样的：

Customer_4: I want to book a ticket to New York.
Agent_9: Okay, when do you want the tickets for
Customer_4: hmm, wait a sec
Agent_9: Sure
Customer_4: When is the least expensive to fly

现在，我应该如何准备我的数据以使word2vec运行？ word2vec模型是否考虑了句子间的相似性，即我是否应该明智地准备语料库句子。

Answer 1

一种方法是，您首先将文档分成几行，然后对于每一行，将行分成标记。然后，您得到标记列表清单的主体。之后，您可以将其输入到gensim word2vec模型中。

如何在gensim和fasttext中为word2vec准备数据？

1 个答案: