如何存储单词向量嵌入?

时间:2018-09-20 08:51:14

标签: deep-learning lstm word2vec opennlp word-embedding

我对NLPDeep Learning领域非常陌生,想了解在使用Word2Vec对整个语料库进行矢量化之后,是否需要在本地存储单词矢量值? 如果是,我想为android.做一个聊天机器人,有人可以为此指导我吗?

1 个答案:

答案 0 :(得分:2)

word2vec嵌入可以保存:

  • 在深度模型的第一层。这种方法很少见,因为在这种情况下,您不能将word2vec用于其他任务。
  • 作为磁盘上的独立文件。对于大多数用例来说,这是更可行的方法。

我建议使用gensim框架来训练word2vec。在这里,您可以了解更多有关如何训练word2vec并将其保存到磁盘的信息:https://radimrehurek.com/gensim/models/word2vec.html

特别地,通过以下方式进行保存:

model = Word2Vec(common_texts, size=100, window=5, min_count=1, workers=4)
model.save("word2vec.model")

培训聊天机器人是更加困难的问题。我可以尝试为您建议一个可能的工作流程,但您应该澄清您打算使用哪种类型的聊天机器人?例如。它应该回答任何问题(开放域)吗?它应该生成答案还是仅具有预定义的答案?