如何将缺少的值传递给feature_columns.bucketized_column()?

时间:2018-07-02 13:31:35

标签: tensorflow

我有一个Dataset,其列名为my_colmy_col是一个正数,我想将其转换为5个存储桶的单编码矢量:

fc_my_col = fc.indicator_column(
  fc.bucketized_column(
    fc.numeric_column('my_col'), boundaries=[1000, 2000, 3000, 4000]))
feature_columns = [fc_my_col]
...

inp_layer = fc.feature_columns.input_layer(features_batch, feature_columns)

my_col有一个值但某些记录没有并且我希望所有5个存储桶指标在这种情况下都为0时,此方法很好用。

我可以为丢失的数字填写默认值,但是由于bucketized_column将整个数字范围存储到存储桶中,因此我将始终属于其中之一。

我可以“忽略”一个存储桶吗?告诉bucketized_column消除“界限”?

谢谢!

1 个答案:

答案 0 :(得分:0)

使用default_value,如下所示:

fc_my_col = fc.indicator_column(
  fc.bucketized_column(
    fc.numeric_column('my_col', default_value=0), boundaries=[1000, 2000, 3000, 4000]))
feature_columns = [fc_my_col]