如何在Tensorflow中的估计器分类中为标签的分类值提供一种热编码

时间:2019-07-07 13:40:00

标签: tensorflow machine-learning tensorflow-estimator

我有一个数据集,其中的分类标签中有字符串值。我已经在Tensorflow中加载了数据集,并为不同的功能定义了功能列。由于标签中也有分类数据,因此如何给它们一个热编码,以便Estimator.LinearClassifier可以学习数据并预测标签?

1 个答案:

答案 0 :(得分:0)

您可以使用熊猫。假设您已经在dataFrame'df'中拥有了非分类功能。

使用可以使用:

import pandas as pd
featurelist_categorical = ['Feature A',
           'Feature B']

for i,j in zip(featurelist_categorical, ['A','B']):
  df = pd.concat([df, pd.get_dummies(data[i],prefix=j)], axis=1)

功能前缀不是必需的,但是在具有多个分类功能的情况下将特别为您提供帮助。

此外,如果由于某些原因您不想将功能拆分为数字,则可以使用H2O.ai。借助H2O,您可以将类别变量直接作为文本输入模型。