我想训练word2vec和fasttext以获得我拥有的特定数据集的向量。
我的模型应将什么作为输入?
我的文件是这样的:
Customer_4: I want to book a ticket to New York.
Agent_9: Okay, when do you want the tickets for
Customer_4: hmm, wait a sec
Agent_9: Sure
Customer_4: When is the least expensive to fly
现在,我应该如何准备我的数据以使word2vec运行? word2vec模型是否考虑了句子间的相似性,即我是否应该明智地准备语料库句子。
答案 0 :(得分:0)
一种方法是,您首先将文档分成几行,然后对于每一行,将行分成标记。然后,您得到标记列表清单的主体。之后,您可以将其输入到gensim word2vec模型中。