我正在尝试理解TensorFlow tutorial的广泛而深入的学习。演示应用程序为具有少量类别(性别,教育)的分类功能创建指标列,并为具有多个类别(native_country,职业)的分类功能创建嵌入列。
我不了解嵌入式列。是否有规则说明何时使用嵌入列而不是指示符列?根据文档,dimension
参数设置嵌入的维度。这是什么意思?
答案 0 :(得分:1)
来自the feature columns tutorial:
现在,假设不是只有三个可能的类,我们有一百万。或许十亿。由于多种原因,随着类别数量的增长,使用指标列训练神经网络变得不可行。
我们可以使用嵌入列来克服此限制。 嵌入列不是将数据表示为多维度的单热矢量,而是将该数据表示为低维普通向量,其中每个单元格可以包含任意数字,而不仅仅是0或1。通过为每个单元格允许更丰富的数字调色板,嵌入列包含的单元格远少于指示器列。
dimension
参数是您将类别减少到的矢量的长度。