我有一组具有以下结构的文件夹
Data
-->1
--->_1.txt
--->_2.txt
--->_3.txt
--->2
--->_1.txt
--->_2.txt
--->_3.txt
1,2是标签,每个文件夹都有一些文本文档。我正在设计使用keras的文本分类模型。我要一次将所有数据加载到内存中。
import sklearn.datasets as skds
files_train = skds.load_files(path_train,load_content=False)
# Read and add data from file to a list
i=0
for f in labelled_files:
data_list.append(Path(f).read_text((encoding='utf8',errors='ignore')))
我的语料库非常庞大,大小为20 GB。如何将这些数据有效地加载到内存中进行训练
history = self.model.fit(x_train, y_train,
batch_size=batch_size,
epochs=self.num_epochs,
verbose=1,
validation_split=0.1,
shuffle=True,
callbacks=[tensorboard])