如何在我的应用程序中将一组单词表示为向量?

时间:2017-10-17 03:01:24

标签: machine-learning neural-network nlp conv-neural-network

首先,让我简要介绍一下我的任务:
大约有10 ^ 9组单词,每组包含大约10 ^ 4个单词,这表明将所有这些单元存储在磁盘中将是非常耗费空间的。我想知道两组之间常用词的数量。但是,我不在乎这些常用词是什么。我甚至不需要知道准确的数字,这意味着估计值对我来说足够了。关键是要找到这些集合的适当表示,以便可以存储它们。
一个自然的想法是将一组单词表示为向量,然后训练一个回归NN模型,其输入是两个向量,表示两组,输出是估计两个输入集之间的公共单词的值。问题是如何将这些集合表示为向量。由于字典太大而无法存储,所以直接应用单词模型包是绝对不可能的。也许我可以首先在单词包上使用一些降维方法来实现更小的向量表示。或者也许我可以对每个单词应用单词嵌入,然后将它们相加以表示一组。有什么建议吗?或者是否已有相关工作?

0 个答案:

没有答案