如何在gensim和fasttext中为word2vec准备数据?

时间:2018-10-25 06:33:40

标签: python machine-learning gensim word2vec fasttext

我想训练word2vec和fasttext以获得我拥有的特定数据集的向量。

我的模型应将什么作为输入?

我的文件是这样的:

Customer_4: I want to book a ticket to New York.
Agent_9: Okay, when do you want the tickets for
Customer_4: hmm, wait a sec
Agent_9: Sure
Customer_4: When is the least expensive to fly

现在,我应该如何准备我的数据以使word2vec运行? word2vec模型是否考虑了句子间的相似性,即我是否应该明智地准备语料库句子。

1 个答案:

答案 0 :(得分:0)

一种方法是,您首先将文档分成几行,然后对于每一行,将行分成标记。然后,您得到标记列表清单的主体。之后,您可以将其输入到gensim word2vec模型中。