应用错误收集

我正在使用CTC将模型训练为ID手写文本。遗憾的是，它在验证和测试集上效果很好，但在样本（IAM样本）数据方面却失败了。我还注意到缺少大写字母，因为大多数单词都以大写字母开头（如果有的话），而我的要求包括阅读保险/金融服务表格的申请表，其中所有手写数据都用大写字母表示。幸运的是，我们可以访问允许我们生成此类数据的资源。我打算使用一堆句子（速成棕色的狐狸.....），这些句子通常使用英语中的大多数字母，并要求我们的资源以大写和草写形式书写它们。尽管我们可以将此任务分配给多个代理（至少1000个），但我不确定需要使用多少行/句子。我们需要在第一时间就正确地生成数据，因为这将是一项昂贵的任务。任何指针都会受到“深深的赞赏”

用于手写字符识别的数据生成

0 个答案: