在doc2vec培训中处理其他信息

时间:2019-02-12 11:59:04

标签: doc2vec

我想在由2位信息组成的项目上训练doc2vec: a)文本(在法律范围内) b)关键字和/或对从文本中提取的其他法律文本的引用 我希望我的模型能够基本上根据2个标准来识别相似的文本: a)文字相似度和b)关键字/引荐的存在

对于这种情况,是否有最佳实践? 到目前为止,我的想法是: -将文字和关键字/ referenes合并为一个字符串,并以此训练模型 -训练两个独立的模型(将产生两个向量:用于文本和用于关键字

1 个答案:

答案 0 :(得分:1)

我假设“ doc2vec”是指gensim类中“段落向量”算法的Doc2Vec实现。

您的两种方法都可能有效,值得进行测试。 Doc2Vec类中没有提供明显不同的“其他”数据的功能,但是您可以使这些数据看起来像额外的单词标记或额外的tags,因此具有这些数据的互相关性其他值会影响并嵌入结果向量空间。

具体来说,如果您希望将“关键字和/或引用”与整个文本一起建模,而不仅仅是普通单词可能会在以后出现(如果将它们附加到文本中) ),则应特别尝试以下一项或两项:

  • 使用PV-DBOW模式(dm=0),该模式不使用逐字逐句的影响(在上下文window中)

  • 除了文档唯一ID标记(这是命名文档向量的经典方式)之外,还将关键字或引用作为额外的tags放置

(如果尝试两个单独的模型,则可能使基于自然文本的模型仍然使用受window影响的PV-DM模式,而关键字/引用的本质上无序的性质将使用PV-DBOW模式。