我正在使用Google Cloud Services的语音二元化功能,并且在说话人数最少的情况下遇到了一些问题。
我有15个人的声音在里面。我尝试了语音最小化服务,但没有最小发言者人数参数(该参数为可选参数),但响应仅确定了3个发言者。
然后,我尝试使用最小扬声器计数参数为15的服务,但是diarization服务似乎无法很好地识别扬声器(几乎就像是随机分配扬声器一样。)
我曾尝试过多种设置的同一个语音,但即使准确度为50%,也无法得到答复。
有人可以告诉我我在做什么错吗?
我的Java代码示例:
try (SpeechClient speechClient = SpeechClient.create()) {
SpeakerDiarizationConfig speakerDiarizationConfig = SpeakerDiarizationConfig.newBuilder()
.setEnableSpeakerDiarization(true)
.setMinSpeakerCount(15)
.setMaxSpeakerCount(20)
.build();
// Configure request to enable Speaker diarization
RecognitionConfig config =
RecognitionConfig.newBuilder()
.setEncoding(RecognitionConfig.AudioEncoding.MP3)
.setLanguageCode("en-IN")
.setSampleRateHertz(44100)
.setDiarizationConfig(speakerDiarizationConfig)
.build();
} catch(Exception e) {
e.printStackTrace();
}