给定5个输入单词预测"最相关的"字

时间:2014-08-09 18:35:51

标签: nlp

我必须为NLP作业解决这个问题。这个任务和我在标题中描述的那样一般。提供了一组具有相应预期输出的2000个示例,它们看起来像:

absence ~ away fonder illness leave presence
absent ~ away minded gone present ill
absurdity ~ stupid ridiculous mad stupidity clown
accents ~ dialects language foreign speech French
accordion ~ music piano play player instrument

我已经使用分布式语义解决了该任务,并且在此集合上具有相当的准确性,但问题是我有一个额外的约束,即:我提供的存档大小必须小于50 MB < / strong>(据我所知,这种约束完全是胡说八道,但我仍然必须遵守)。因此,任何分布式语义方法都不会起作用,因为语义空间必须构建在大量数据(在我的情况下为数千个维基百科页面)上,并且其大小不能减少到足以容纳50 MB。

你能否提出我可以用来解决这个问题的其他方法?

1 个答案:

答案 0 :(得分:1)

当必须共享数据时,这通常发生在科学文献中。通常会提交资源(在您的情况下为单词向量),以及用于构建它们的代码和原始数据的链接(例如维基百科)。您还应该分发资源所需的任何其他代码(例如,查询模型以查找与给定目标最相关的单词)。

在您的情况下,如果您使用了合理的维数减少,您应该能够适应50 MB的体面覆盖分布模型。我正在使用的模型现在需要大约150MB来存储未压缩的纯文本中的70k字向量(由于我使用的特定格式,还有很多开销)。我可以把它压缩到37MB。