是否有理由为每个要素列使用不同的词汇表,而不是为每个要素列指定相同的“全局”词汇表?
例如,假设我正在使用Tensorflow的DNNClassifier估算器构建DNN,以确定猫是“令人敬畏”还是“跛脚”。
每个要素列都是包含在indicator_column中的categorical_column_with_vocabulary_file。
第1列可能是“出生月份”,选项为“1月”,“2月”等。
第2列是“着色”,选项为“Calico”或“Tabby”。
第3栏是“喜欢奶酪”,选项为“是”或“否”。
我将“global_vocab_list.txt”列为每月以及:
印花布
虎斑
是
没有
并使用与每个要素列的vocab文件相同的列表。
如果我将“month_vocab_list.txt”传递给“出生月份”功能列,将“coloration_vocab_list.txt”传递给“着色”功能列,Tensorflow会给我有意义的不同结果吗? “yes.no_vocab.txt”到“喜欢奶酪”功能栏?是否可能会有一个或另一个的性能提升?
答案 0 :(得分:0)
我认为您应该使用一些单独的文件。根据Tensorflow documentation,在categorical_column_with_vocabulary_file
中,没有args能够满足您的描述。
vocabulary_file
:词汇表文件名。vocabulary_size
:词汇表中元素的数量。如果小于,则该长度不得大于vocabulary_file的长度 长度,后面的值将被忽略。如果为None,则将其设置为 词汇表文件。num_oov_buckets
:非负整数,无语音存储桶的数量。所有非语音输入将是 在[vocabulary_size, vocabulary_size + num_oov_buckets)基于输入值的哈希值。一种 不能使用default_value指定正数num_oov_buckets。default_value
:要返回语音用特征值的整数ID值,默认为-1。这不能 用正数num_oov_buckets指定。