我想在由2位信息组成的项目上训练doc2vec: a)文本(在法律范围内) b)关键字和/或对从文本中提取的其他法律文本的引用 我希望我的模型能够基本上根据2个标准来识别相似的文本: a)文字相似度和b)关键字/引荐的存在
对于这种情况,是否有最佳实践? 到目前为止,我的想法是: -将文字和关键字/ referenes合并为一个字符串,并以此训练模型 -训练两个独立的模型(将产生两个向量:用于文本和用于关键字
答案 0 :(得分:1)
我假设“ doc2vec”是指gensim
类中“段落向量”算法的Doc2Vec
实现。
您的两种方法都可能有效,值得进行测试。 Doc2Vec
类中没有提供明显不同的“其他”数据的功能,但是您可以使这些数据看起来像额外的单词标记或额外的tags
,因此具有这些数据的互相关性其他值会影响并嵌入结果向量空间。
具体来说,如果您希望将“关键字和/或引用”与整个文本一起建模,而不仅仅是普通单词可能会在以后出现(如果将它们附加到文本中) ),则应特别尝试以下一项或两项:
使用PV-DBOW模式(dm=0
),该模式不使用逐字逐句的影响(在上下文window
中)
除了文档唯一ID标记(这是命名文档向量的经典方式)之外,还将关键字或引用作为额外的tags
放置
(如果尝试两个单独的模型,则可能使基于自然文本的模型仍然使用受window
影响的PV-DM模式,而关键字/引用的本质上无序的性质将使用PV-DBOW模式。