标签: huggingface-transformers
我想训练英语音素到音素的Transformer模型,该模型将在其语音转录中采用单词序列并输出相应的文本序列。例如,输入序列可能看起来像:“ Y EH1 S S OW1 AA1 N”,输出“是,依此类推”。 我想使用一些经过预训练的Transformer模型。您能否建议这种情况下最好的方法是什么?哪个预训练模型最适合此任务,哪个标记器将是在此处使用的最佳选择? 我将不胜感激任何建议或帮助。