目前,我已将原始文本数据作为字节列表存储在tfRecords
中。我在尝试使用时遇到了问题
tf.regex_replace(text, '[[:punct:]]', ' ')
因为我遇到
的错误TypeError: Expected string, got <tensorflow.python.framework.sparse_tensor.SparseTensor object> of type'SparseTensor'instead
这可能是因为当我解析数据集时,我使用的是tf.io.VarLenFeature
(因为它是原始数据,并且我没有对其进行固定长度的处理),因此会导致{{ 1}}。所有这些错误都向我表明我没有按照“正确”的方式进行操作
1)是否应将原始文本数据不存储为SparseTensor
而是存储在tfRecords
中?我问,因为他们从GCP Tutorial开始使用csvs而不是tfRecords。我看到的所有教程都使用CSV或已处理的tfRecords。我想即时处理数据以将预处理添加到我的张量流图中
2)是否有任何方法可以将可变长度的原始文本加载为CSVs
,使其可以与tf.io.VarLenFeature
和regex_replace
一起使用?我假设CSV无法扩展,而tfRecords对于想扩展的初创公司来说效果更好,如果我错了,请随时纠正我