csv vs tfRecords是否可以在NLP中存储原始文本数据?

时间:2019-02-06 23:49:14

标签: tensorflow

目前,我已将原始文本数据作为字节列表存储在tfRecords中。我在尝试使用时遇到了问题

tf.regex_replace(text, '[[:punct:]]', ' ')

因为我遇到

的错误
TypeError: Expected string, got <tensorflow.python.framework.sparse_tensor.SparseTensor object> of type'SparseTensor'instead

这可能是因为当我解析数据集时,我使用的是tf.io.VarLenFeature(因为它是原始数据,并且我没有对其进行固定长度的处理),因此会导致{{ 1}}。所有这些错误都向我表明我没有按照“正确”的方式进行操作

1)是否应将原始文本数据不存储为SparseTensor而是存储在tfRecords中?我问,因为他们从GCP Tutorial开始使用csvs而不是tfRecords。我看到的所有教程都使用CSV或已处理的tfRecords。我想即时处理数据以将预处理添加到我的张量流图中

2)是否有任何方法可以将可变长度的原始文本加载为CSVs,使其可以与tf.io.VarLenFeatureregex_replace一起使用?我假设CSV无法扩展,而tfRecords对于想扩展的初创公司来说效果更好,如果我错了,请随时纠正我

0 个答案:

没有答案