对于我们的ML分配,我们有三个数据集。挑战在于检查书面和口头号码是否指代相同的号码。我们正在使用带有手写数字的MNIST数据集,以及包含阿拉伯语语音数字的音频数据集。我们的数据如下:
当书面和语音数据引用相同的数字时,匹配数据集引用True。
我们曾考虑过标记书面数据集并将其与标记的阿拉伯语集进行比较,但是随后我们没有阿拉伯语语音号码的标签。我们没有标记语音号码的方法。我们曾考虑过使用以布尔值作为标签的Match_train数据集,但我们不知道该如何准确地解释它。
你们将如何解决这个问题?