TensorFlow使用Ints作为分类变量?

时间:2017-04-21 20:56:53

标签: python tensorflow

在创建基本的神经网络模型时,可以直接使用int作为分类变量吗? 那是.. 我有一个看起来像这样的数据表:

    agegrp  gender  race    marital_status  region  ccs1    ccs2    ccs3    ccs4    ccs5
0   281     285     297     288             309     129     131     197     211     212
1   281     285     297     291             306     145     117     121     197     236
2   281     284     297     288             306     108     130     259     109     129
3   281     285     297     291             306      55     661      52     257     206
4   281     285     297     288             309      226    259      60     158     161

其中ccs5是目标标签列 在阅读Francois Chollet的书(Deep Learning With Python,MEAP,第101-103页)时,他在路透社的分类示例中使用了sparse_categorical_crossentropy损失和一个int标签。

但是我找不到任何以这种方式使用分类变量的参考。我希望避免通过一个热编码来爆炸这些数据,因为数据列中有太多的值,或者创建虚拟变量..但也许这是不可能?

我们试图建模的问题是将基础人口统计数据年龄组,性别,种族婚姻状况区域和诊断代码的顺序出现(ccs代码大约250左右)来预测第5诊断代码。我们有足够的数据..

以最佳方式处理整数分类变量的任何建议或指针都非常赞赏!

0 个答案:

没有答案