我正在用公司文件解决二进制文本分类问题。将长度为100的Doc2Vec嵌入与LightGBM配合使用会产生很好的结果。但是,对于该项目,为至少一个组件近似主题意义将非常有价值。理想情况下,这将是LightGBM高度重视的功能,并通过几个示例进行了趣味解释。
有人尝试过这种方法吗?对于这种复杂程度的高维模型,应该不进行解释吗?
答案 0 :(得分:0)
Doc2Vec
表示形式的各个维度不应被视为独立的,可解释的特征。它们仅在相互配合时才有用,并且与各个坐标轴对齐的确切方向在任何人可描述的意义上都可能没有太大意义。
但是,空间的邻居可能松散地符合可描述的主题,某些方向(并非与坐标轴特别平行)可能松散地符合了语义主题。
但是要表征这些特征,您可以尝试查找相关文档组或发现的簇的质心点,并比较这些质心之间的相对距离/方向。