我有一个数据集,其中的分类标签中有字符串值。我已经在Tensorflow中加载了数据集,并为不同的功能定义了功能列。由于标签中也有分类数据,因此如何给它们一个热编码,以便Estimator.LinearClassifier可以学习数据并预测标签?
答案 0 :(得分:0)
您可以使用熊猫。假设您已经在dataFrame'df'中拥有了非分类功能。
使用可以使用:
import pandas as pd
featurelist_categorical = ['Feature A',
'Feature B']
for i,j in zip(featurelist_categorical, ['A','B']):
df = pd.concat([df, pd.get_dummies(data[i],prefix=j)], axis=1)
功能前缀不是必需的,但是在具有多个分类功能的情况下将特别为您提供帮助。
此外,如果由于某些原因您不想将功能拆分为数字,则可以使用H2O.ai。借助H2O,您可以将类别变量直接作为文本输入模型。