使用自定义映射功能转换原始分类特征

时间:2019-11-07 18:24:46

标签: python tensorflow machine-learning tensorflow-transform

从文档here可以理解,我可以进行类似tft.compute_and_apply_vocabulary(s)的调用,以将分类列转换为数字特征。

作为tensorflow的初学者,我想知道是否存在原始特征列到数字列的自定义映射?我已经看到here描述的hash_bucket方法几乎可以完成我想要的工作。但是,我需要调用自定义映射函数来代替条目的哈希,以便将分类列中的'm'个唯一元素映射为数字或字符串的'n'个唯一元素,其中n

用例。我在使用KDD CUP 99数据集进行实验时碰到了这个问题,其中训练集的目标类别包含23种不同的攻击类型,需要对它们进行识别并将其分为四类攻击。如果有转换函数,我可以使用,以便目标类别中的所有23个唯一元素都可以映射到编号为[1,2,3,4]的4种攻击类别。包括可以映射为[0]的常规连接,目标类将包含5个类,因此我可以直接训练多类分类模型。关于KDD CUP 99数据集的更多信息是here

有人可以帮忙吗?

更新 在此thread

的帮助下解决了这个问题

0 个答案:

没有答案