在创建基本的神经网络模型时,可以直接使用int作为分类变量吗? 那是.. 我有一个看起来像这样的数据表:
agegrp gender race marital_status region ccs1 ccs2 ccs3 ccs4 ccs5
0 281 285 297 288 309 129 131 197 211 212
1 281 285 297 291 306 145 117 121 197 236
2 281 284 297 288 306 108 130 259 109 129
3 281 285 297 291 306 55 661 52 257 206
4 281 285 297 288 309 226 259 60 158 161
其中ccs5是目标标签列 在阅读Francois Chollet的书(Deep Learning With Python,MEAP,第101-103页)时,他在路透社的分类示例中使用了sparse_categorical_crossentropy损失和一个int标签。
但是我找不到任何以这种方式使用分类变量的参考。我希望避免通过一个热编码来爆炸这些数据,因为数据列中有太多的值,或者创建虚拟变量..但也许这是不可能?
我们试图建模的问题是将基础人口统计数据年龄组,性别,种族婚姻状况区域和诊断代码的顺序出现(ccs代码大约250左右)来预测第5诊断代码。我们有足够的数据..
以最佳方式处理整数分类变量的任何建议或指针都非常赞赏!