我正在使用tf.data.Dataset
API,并且有一个约50万行和约1,800列的数据集。当我尝试时:
dataset = tf.data.Dataset.from_tensor_slices(({"reviews": data}, labels))
我回来了:
ValueError: Cannot create a tensor proto whose content is larger than 2GB.
我到处搜索,看到很多人遇到此问题,但没有令人满意的答案。有什么方法可以绕过这个限制,还是可以消除我的dataset
的张量流方法?我已经批处理了,但是在调用后会发生这种情况:
dataset = tf.data.Dataset.from_tensor_slices(({"reviews": data}, labels))
对于它的价值,当我使用10%的数据时,我的将CSV数据读入tf.data.Dataset
的代码即可工作。
任何建议都很棒!
答案 0 :(得分:1)
根据数据集,您可以尝试使用tf dataset api,这意味着您可以尝试将数据集转换为tfrecord,也可以尝试csv文件。当您训练其他数据时,datasetapi负责在后台加载数据。这也大大加快了培训过程