这听起来像是一个天真的问题,但我对此很新。我们假设我使用Google预训练的word2vector模型(https://github.com/dav/word2vec)来训练分类模型。我保存了我的分类模型。现在我将分类模型加载到内存中以测试新实例。我是否需要再次加载Google word2vector模型?或者它仅用于训练我的模型?
答案 0 :(得分:0)
这取决于您的语料库和测试示例的结构和预处理方式。
您可能正在使用预先训练过的单词向量将文本转换为数字要素。首先,文本示例被矢量化以训练分类器。之后,其他(测试/制作)文本示例将在相同的位置进行矢量化,并呈现以使分类器得到其判断。
因此,您需要使用与培训期间使用的测试/生产文本示例相同的文本到矢量过程。也许您已经在单独的早期批量步骤中完成了这一操作,在这种情况下,您已经拥有了分类器使用的向量形式的功能。但是,通常你的分类器管道本身会采用原始文本并对其进行矢量化 - 在这种情况下,它将需要在训练期间可用的相同的预训练(单词) - >(矢量)映射,这些映射在测试时可用。