Question

我正在使用tf.data.Dataset API，并且有一个约50万行和约1,800列的数据集。当我尝试时：

dataset = tf.data.Dataset.from_tensor_slices(({"reviews": data}, labels))

我回来了：

ValueError: Cannot create a tensor proto whose content is larger than 2GB.

我到处搜索，看到很多人遇到此问题，但没有令人满意的答案。有什么方法可以绕过这个限制，还是可以消除我的dataset的张量流方法？我已经批处理了，但是在调用后会发生这种情况：

dataset = tf.data.Dataset.from_tensor_slices(({"reviews": data}, labels))

对于它的价值，当我使用10％的数据时，我的将CSV数据读入tf.data.Dataset的代码即可工作。

任何建议都很棒！

Answer 1

根据数据集，您可以尝试使用tf dataset api，这意味着您可以尝试将数据集转换为tfrecord，也可以尝试csv文件。当您训练其他数据时，datasetapi负责在后台加载数据。这也大大加快了培训过程