我正在研究tensorflow示例here,对于嵌入,它们具有以下内容:
tf.keras.layers.Embedding(vocab_size, embedding_dim,
batch_input_shape=[batch_size, None])
它们的vocab_size(从以前开始)为65,而嵌入的dim为256。
因此,它们将0到64之间的整数作为维数为256的向量。这将使其更稀疏。这有什么好处?我以为通常的用法是将稀疏向量变为压缩程度更高的向量,以估计较少的参数?