我正在做一些研究时,遇到了一些棘手的情况。下表是我数据的一小部分。
pd.DataFrame({'itemlist':[['a','b','o','d'], ['e','a','u','z'], ['z','t','w','x'], ['q','y','l','j']]})
我用scikit-learn的MultiLabelBinarizer成功地对其进行了操作,如下所示。
enter image description here
并将此表与由上表组成的cross_column表合并。好像在下面
我使用过将表放入张量流
tf.feature_column.numeric_column(key='a')
用于所有非交叉列。我用
aa = tf.contrib.layers.bucketized_column(tf.contrib.layers.real_valued_column('a'), boundaries=[1])
dd = tf.contrib.layers.bucketized_column(tf.contrib.layers.real_valued_column('d'), boundaries=[1])
tf.contrib.layers.crossed_column([aa, dd], hash_bucket_size = 2)
对于所有类似“ a / d”的跨栏
在这种情况下,您认为上面的那些tensorflow层适合我的数据类型和多标签格式吗?在tensorflowAPI中有哪些合适的高级图层或feature_columns?还有没有更好的方法来处理张量流中的多标签数据?请给我一些建议。
谢谢。