标签: python tensorflow machine-learning vector nlp
我正在使用TensorFlow集线器上的this模块成功转换文档。
每个文档的输出是512维向量,但是对于我的应用程序来说太大了,我想减小模块本身不提供的维数。
我可以看到一些选择:
使用PCA或tSNE的问题是,这需要适合许多示例矢量的数据-这意味着随着新文档的到来并已转换为512像素矢量,我将需要继续拟合另一个模型,然后更新旧的文档向量-这在我的应用程序中将是一个巨大的问题。
还有其他降维技术可以在单个数据点上运行吗?
答案 0 :(得分:1)
“ UMAP支持通过标准sklearn变换方法向现有嵌入添加新点。” UMAP在各种方面,速度,准确性和理论基础上都是降维的赢家。