Azure custom voice 服务
标签: Azure, custom voice
正在查看 0 条回复
- 作者帖子
- Up::1
Azure custom voice 的服务模型如下:
azure custom voice 提供的模块如下,一共有三个:
Data:用于数据集的上传,支持单音频用于测试,或者音频+人工标注的文本用于训练
Model:可直接用 Azure 自带的模型,或者 customized 的模型进行测试
Endpoint:将训练好的模型进行部署,以便调用1> Data
支持的数据类型:Custom Voice 支持三种类型的数据,详情可查看(Link):
i. 短音频(≤ 15s)和对应的文本
ii. 长音频(≥ 20s)和对应的文本
iii.单独的音频文件- 对于第二种数据类型,Custom Voice 会在后台自动对其进行切分,将其变成第一种类型
- 对于第三种数据类型,Custom Voice 会在后台自动进行转录生成对应的文本,若音频太长,还会自动进行分割,将其变成第一种类型
- 以上几种类型都要求将所有的音频打包成一个zip文件,所有的转录文本打包成一个zip文件,通过文件名来进行音频和文本的配对。
如下图所示,我们将一个 44s 长度的音频按照第二种方式上传后,Custom Voice 会将其自动分成合适长度的 4 段短音频,并会计算相应的指标,用作对于该数据集质量的评估:
各指标如下:
- Pronunciation score:发音得分,用来评判发音是否标准,越高越好,尽量需要保证 ≥ 70
- Signal-noise ratio (SNR):信噪比,声音信号与噪声的比值,越大越好,尽量需要保证 ≥ 20
- Duration:音频时长,尽量需要保证 ≤ 15s
2> Model
Model 模块包含如下三个阶段:i. Training
对于 en-US 和 zh-CN 语言,可以使用任意数量的样本来训练模型;对于其他语言,至少需要 2000 个样本才能训练。ii. Testing
训练完后,系统会自动生成100个随机样本进行测试,可以点进去听一下效果。iii. deployment
如果效果合适,则可将模型部署,便于代码中进行调用3> Endpoint
模型部署完后会生成一个 endpoint 节点,参照下图所示的指引即可使用该模型生成语音。
- 作者帖子
正在查看 0 条回复
- 哎呀,回复话题必需登录。