通用句子编码器,降低向量维数

时间:2019-10-01 10:11:22

标签: python tensorflow machine-learning vector nlp

我正在使用TensorFlow集线器上的this模块成功转换文档。

每个文档的输出是512维向量,但是对于我的应用程序来说太大了,我想减小模块本身不提供的维数。

我可以看到一些选择:

  • 使用另一个具有较低尺寸输出的包装。
  • 使用PCA或tSNE之类的东西来减小尺寸。

使用PCA或tSNE的问题是,这需要适合许多示例矢量的数据-这意味着随着新文档的到来并已转换为512像素矢量,我将需要继续拟合另一个模型,然后更新旧的文档向量-这在我的应用程序中将是一个巨大的问题。

还有其他降维技术可以在单个数据点上运行吗?

1 个答案:

答案 0 :(得分:1)

“ UMAP支持通过标准sklearn变换方法向现有嵌入添加新点。” UMAP在各种方面,速度,准确性和理论基础上都是降维的赢家。