我正在使用CTC将模型训练为ID手写文本。遗憾的是,它在验证和测试集上效果很好,但在样本(IAM样本)数据方面却失败了。我还注意到缺少大写字母,因为大多数单词都以大写字母开头(如果有的话),而我的要求包括阅读保险/金融服务表格的申请表,其中所有手写数据都用大写字母表示。幸运的是,我们可以访问允许我们生成此类数据的资源。我打算使用一堆句子(速成棕色的狐狸.....),这些句子通常使用英语中的大多数字母,并要求我们的资源以大写和草写形式书写它们。尽管我们可以将此任务分配给多个代理(至少1000个),但我不确定需要使用多少行/句子。我们需要在第一时间就正确地生成数据,因为这将是一项昂贵的任务。任何指针都会受到“深深的赞赏”