我应该为每个tensorflow分类列使用单独的词汇表文件吗?

时间:2018-04-17 16:21:28

标签: tensorflow tensorflow-estimator

是否有理由为每个要素列使用不同的词汇表,而不是为每个要素列指定相同的“全局”词汇表?

例如,假设我正在使用Tensorflow的DNNClassifier估算器构建DNN,以确定猫是“令人敬畏”还是“跛脚”。

每个要素列都是包含在indicator_column中的categorical_column_with_vocabulary_file。

第1列可能是“出生月份”,选项为“1月”,“2月”等。

第2列是“着色”,选项为“Calico”或“Tabby”。

第3栏是“喜欢奶酪”,选项为“是”或“否”。

我将“global_vocab_list.txt”列为每月以及:

印花布

虎斑

没有

并使用与每个要素列的vocab文件相同的列表。

如果我将“month_vocab_list.txt”传递给“出生月份”功能列,将“coloration_vocab_list.txt”传递给“着色”功能列,Tensorflow会给我有意义的不同结果吗? “yes.no_vocab.txt”到“喜欢奶酪”功能栏?是否可能会有一个或另一个的性能提升?

1 个答案:

答案 0 :(得分:0)

我认为您应该使用一些单独的文件。根据Tensorflow documentation,在categorical_column_with_vocabulary_file中,没有args能够满足您的描述。

  
      
  • vocabulary_file:词汇表文件名。
  •   
  • vocabulary_size:词汇表中元素的数量。如果小于,则该长度不得大于vocabulary_file的长度   长度,后面的值将被忽略。如果为None,则将其设置为   词汇表文件。
  •   
  • num_oov_buckets:非负整数,无语音存储桶的数量。所有非语音输入将是   在[vocabulary_size,   vocabulary_size + num_oov_buckets)基于输入值的哈希值。一种   不能使用default_value指定正数num_oov_buckets。
  •   
  • default_value:要返回语音用特征值的整数ID值,默认为-1。这不能   用正数num_oov_buckets指定。
  •