Tensorflow:为SVM估计器输入具有稀疏数据的管道

时间:2017-04-19 07:45:40

标签: tensorflow classification svm sparse-matrix

简介:

我正在尝试使用稀疏数据训练tensorflow svm estimator tensorflow.contrib.learn.python.learn.estimators.svm。在tensorflow/contrib/learn/python/learn/estimators/svm_test.py#L167的github仓库中使用稀疏数据的示例用法(我不允许发布更多链接,因此这里是相对路径)。

svm估算器需要参数example_id_columnfeature_columns,其中要素列应来自类FeatureColumn,例如tf.contrib.layers.feature_column.sparse_column_with_hash_bucket。请参阅tensorflow/contrib/learn/python/learn/estimators/svm.py#L85的Github回购和python/contrib.layers#Feature_columns的tensorflow.org文档。

问题:

  1. 如何设置输入管道以格式化稀疏数据,以便我可以使用tf.contrib.layers feature_columns之一作为svm估算器的输入。
  2. 具有许多功能的密集输入功能如何?
  3. 背景

    我使用的数据是来自LIBSVM websitea1a数据集。该数据集具有123个特征(如果数据密集,则对应于123个feature_columns)。我写了一个用户op来读取像tf.decode_csv()这样的数据但是对于LIBSVM格式。 op将标签返回为密集张量,将特征返回为稀疏张量。我的输入管道:

    NUM_FEATURES = 123
    batch_size = 200
    
    # my op to parse the libsvm data
    decode_libsvm_module = tf.load_op_library('./libsvm.so')
    
    def input_pipeline(filename_queue, batch_size):
        with tf.name_scope('input'):
            reader = tf.TextLineReader(name="TextLineReader_")
            _, libsvm_row = reader.read(filename_queue, name="libsvm_row_")
            min_after_dequeue = 1000
            capacity = min_after_dequeue + 3 * batch_size
            batch = tf.train.shuffle_batch([libsvm_row], batch_size=batch_size,
                                           capacity=capacity,
                                           min_after_dequeue=min_after_dequeue,
                                           name="text_line_batch_")
            labels, sp_indices, sp_values, sp_shape = \
                decode_libsvm_module.decode_libsvm(records=batch,
                                                   num_features=123,
                                                   OUT_TYPE=tf.int64, 
                                                   name="Libsvm_decoded_")
            # Return the features as sparse tensor and the labels as dense
            return tf.SparseTensor(sp_indices, sp_values, sp_shape), labels
    

    Here是一个batch_size = 5的示例批处理。

    def input_fn(dataset_name):
        maybe_download()
    
        filename_queue_train = tf.train.string_input_producer([dataset_name], 
                                                            name="queue_t_")
        features, labels = input_pipeline(filename_queue_train, batch_size)
    
        return {
            'example_id': tf.as_string(tf.range(1,123,1,dtype=tf.int64)),
            'features': features
        }, labels
    

    这是我到目前为止所尝试的:

    with tf.Session().as_default() as sess:
        sess.run(tf.global_variables_initializer())
    
        coord = tf.train.Coordinator()
        threads = tf.train.start_queue_runners(sess=sess, coord=coord)
    
        feature_column = tf.contrib.layers.sparse_column_with_hash_bucket(
            'features', hash_bucket_size=1000, dtype=tf.int64)
    
        svm_classifier = svm.SVM(feature_columns=[feature_column],
                                 example_id_column='example_id',
                                 l1_regularization=0.0,
                                 l2_regularization=1.0)
        svm_classifier.fit(input_fn=lambda: input_fn(TRAIN),
                           steps=30)
    
        accuracy = svm_classifier.evaluate(
            input_fn= lambda: input_fn(features, labels), 
            steps=1)['accuracy']                       
        print(accuracy)
        coord.request_stop()
    
        coord.join(threads)
        sess.close()
    

2 个答案:

答案 0 :(得分:1)

这是一个带有补偿数据的示例,适用于TensorFlow 1.1.0-rc2。我认为我的评论具有误导性;您最好将~100个二进制功能转换为实值功能(tf.sparse_tensor_to_dense)并使用real_valued_column,因为sparse_column_with_integerized_feature隐藏了SVM Estimator中的大部分有用信息。

import tensorflow as tf

batch_size = 10
num_features = 123
num_examples = 100

def input_fn():
  example_ids = tf.random_uniform(
      [batch_size], maxval=num_examples, dtype=tf.int64)
  # Construct a SparseTensor with features
  dense_features = (example_ids[:, None]
                    + tf.range(num_features, dtype=tf.int64)[None, :]) % 2
  non_zeros = tf.where(tf.not_equal(dense_features, 0))
  sparse_features = tf.SparseTensor(
      indices=non_zeros,
      values=tf.gather_nd(dense_features, non_zeros),
      dense_shape=[batch_size, num_features])
  features = {
      'some_sparse_features': tf.sparse_tensor_to_dense(sparse_features),
      'example_id': tf.as_string(example_ids)}
  labels = tf.equal(dense_features[:, 0], 1)
  return features, labels
svm = tf.contrib.learn.SVM(
    example_id_column='example_id',
    feature_columns=[
      tf.contrib.layers.real_valued_column(
          'some_sparse_features')],
    l2_regularization=0.1, l1_regularization=0.5)
svm.fit(input_fn=input_fn, steps=1000)
positive_example = lambda: {
    'some_sparse_features': tf.sparse_tensor_to_dense(
        tf.SparseTensor([[0, 0]], [1], [1, num_features])),
    'example_id': ['a']}
print(svm.evaluate(input_fn=input_fn, steps=20))
print(next(svm.predict(input_fn=positive_example)))
negative_example = lambda: {
    'some_sparse_features': tf.sparse_tensor_to_dense(
        tf.SparseTensor([[0, 0]], [0], [1, num_features])),
    'example_id': ['b']}
print(next(svm.predict(input_fn=negative_example)))

打印:

{'accuracy': 1.0, 'global_step': 1000, 'loss': 1.0645389e-06}
{'logits': array([ 0.01612902], dtype=float32), 'classes': 1}
{'logits': array([ 0.], dtype=float32), 'classes': 0}

答案 1 :(得分:0)

自TensorFlow 1.5.0起,内置了读取LIBSVM数据的功能, 在这里参考我的答案 https://stackoverflow.com/a/56354308/3885491