从文档here可以理解,我可以进行类似tft.compute_and_apply_vocabulary(s)
的调用,以将分类列转换为数字特征。
作为tensorflow的初学者,我想知道是否存在原始特征列到数字列的自定义映射?我已经看到here描述的hash_bucket方法几乎可以完成我想要的工作。但是,我需要调用自定义映射函数来代替条目的哈希,以便将分类列中的'm'个唯一元素映射为数字或字符串的'n'个唯一元素,其中n 用例。我在使用KDD CUP 99数据集进行实验时碰到了这个问题,其中训练集的目标类别包含23种不同的攻击类型,需要对它们进行识别并将其分为四类攻击。如果有转换函数,我可以使用,以便目标类别中的所有23个唯一元素都可以映射到编号为[1,2,3,4]的4种攻击类别。包括可以映射为[0]的常规连接,目标类将包含5个类,因此我可以直接训练多类分类模型。关于KDD CUP 99数据集的更多信息是here 有人可以帮忙吗? 更新
在此thread