应用错误收集

是否有理由为每个要素列使用不同的词汇表，而不是为每个要素列指定相同的“全局”词汇表？

例如，假设我正在使用Tensorflow的DNNClassifier估算器构建DNN，以确定猫是“令人敬畏”还是“跛脚”。

每个要素列都是包含在indicator_column中的categorical_column_with_vocabulary_file。

第1列可能是“出生月份”，选项为“1月”，“2月”等。

第2列是“着色”，选项为“Calico”或“Tabby”。

第3栏是“喜欢奶酪”，选项为“是”或“否”。

我将“global_vocab_list.txt”列为每月以及：

印花布

虎斑

是

没有

并使用与每个要素列的vocab文件相同的列表。

如果我将“month_vocab_list.txt”传递给“出生月份”功能列，将“coloration_vocab_list.txt”传递给“着色”功能列，Tensorflow会给我有意义的不同结果吗？ “yes.no_vocab.txt”到“喜欢奶酪”功能栏？是否可能会有一个或另一个的性能提升？

我认为您应该使用一些单独的文件。根据Tensorflow documentation，在categorical_column_with_vocabulary_file中，没有args能够满足您的描述。

vocabulary_file：词汇表文件名。

vocabulary_size：词汇表中元素的数量。如果小于，则该长度不得大于vocabulary_file的长度   长度，后面的值将被忽略。如果为None，则将其设置为   词汇表文件。

num_oov_buckets：非负整数，无语音存储桶的数量。所有非语音输入将是   在[vocabulary_size，   vocabulary_size + num_oov_buckets）基于输入值的哈希值。一种   不能使用default_value指定正数num_oov_buckets。

default_value：要返回语音用特征值的整数ID值，默认为-1。这不能   用正数num_oov_buckets指定。

我应该为每个tensorflow分类列使用单独的词汇表文件吗？

1 个答案: