Tensorflow数据集API

时间:2018-09-03 06:57:03

标签: tensorflow tensorflow-datasets

我正在使用tf.contrib.data.make_csv_dataset(csv_path)读取CSV文件,该CSV有两列,即 评论 评级 。阅读后,我想在评论列上执行标记化。

 dataset = tf.contrib.data.make_csv_dataset(csv_file, batch_size=2)

创建数据集后,我希望将下面的方法映射到数据集的 审查 列:

def create_tokens(sentence):
    return tf.string_split([sentence).values

我被困在这里。

1 个答案:

答案 0 :(得分:1)

使用此示例数据:

review, rating
Best film ever, 5
rather meh, 2

您应该能够使用tensorflow 1.10中的herehere中所述的tf.data.map():

def create_tokens(sentence):
    return tf.string_split(sentence['review'])

dataset = tf.contrib.data.make_csv_dataset('test.csv', batch_size=2)
dataset = dataset.map(create_tokens)