Question

我有一个大约 15,500 行的数据集。数据集由两列组成：文本列（自变量）和输出（因变量）。输出具有二进制值（即 0 和 1）。大约 9500 行具有输出列的值（即我可以将其用于训练目的），其余 6000 行（没有输出列值）我想将其用于测试目的。所有行 (15500) 都在一个文件中。我创建了一个模型定义文件，在其中将 parallel_CNN 编码器用于文本列。我使用以下命令运行来训练和测试数据集：

ludwig experiment --dataset dataset_name.csv --config_file model_definitions.yml

现在的问题是，我没有告诉程序使用前 9500 行来训练程序，使用剩余的行来测试模型。路德维希有什么方法可以传递任何参数来告诉哪些行用于训练以及哪些行应该用于测试？或者有没有更好的方法来完成同样的任务？

拆分训练和测试数据

0 个答案: