应用错误收集

在本文Learning Deep Structured Semantic Models for Web Search using Clickthrough Data中，它使用哈希技术一词将单词的单热表示转换为字母三元组的（稀疏）向量。

根据我的理解，例如，首先将单词tf.estimator.EstimatorSpec(mode, predictions, loss, trainOp)分解为字母三字组look，然后将其表示为一个向量，其中每个都为其中的每个三元组和零。通过这样做，它可以减少单词向量的维度，同时具有非常少的冲突，如本文所述。

我的困惑是，通常如果我们使用词袋表示来表示基于单热表示的文档，我们只计算每个单词的出现次数。但是我可以想象，如果我们使用基于字母三字母的词袋，那么很容易就会有不同的词汇共享共同的模式，所以通过这样的表示来恢复文档中哪些词的信息似乎很难。

我理解正确吗？这个问题是如何解决的？或者它对论文中的查询/标题实验无关紧要？

关于DSSM中词哈希的困惑？

1 个答案: