Azure custom voice 服务

okass 2022-01-25 118

标签： Azure, custom voice

该话题包含 0个回复，1 人参与，最后由okass 更新于 4年、 5月前。

正在查看 0 条回复

作者
帖子
- okass
  参与者
  
  #1252 2022-01-25 11:15
  +关注
  Up
  2
  ::
  Azure custom voice 的服务模型如下:
  azure custom voice 提供的模块如下，一共有三个:
  Data：用于数据集的上传，支持单音频用于测试，或者音频+人工标注的文本用于训练
  Model：可直接用 Azure 自带的模型，或者 customized 的模型进行测试
  Endpoint：将训练好的模型进行部署，以便调用
  
  1> Data
  支持的数据类型：
  Custom Voice 支持三种类型的数据，详情可查看（Link）：
  i. 短音频（≤ 15s）和对应的文本
  ii. 长音频（≥ 20s）和对应的文本
  iii.单独的音频文件
  - 对于第二种数据类型，Custom Voice 会在后台自动对其进行切分，将其变成第一种类型
  - 对于第三种数据类型，Custom Voice 会在后台自动进行转录生成对应的文本，若音频太长，还会自动进行分割，将其变成第一种类型
  - 以上几种类型都要求将所有的音频打包成一个zip文件，所有的转录文本打包成一个zip文件，通过文件名来进行音频和文本的配对。
  如下图所示，我们将一个 44s 长度的音频按照第二种方式上传后，Custom Voice 会将其自动分成合适长度的 4 段短音频，并会计算相应的指标，用作对于该数据集质量的评估：
  各指标如下：
  - Pronunciation score：发音得分，用来评判发音是否标准，越高越好，尽量需要保证 ≥ 70
  - Signal-noise ratio (SNR)：信噪比，声音信号与噪声的比值，越大越好，尽量需要保证 ≥ 20
  - Duration：音频时长，尽量需要保证 ≤ 15s
  2> Model
  Model 模块包含如下三个阶段：
  i. Training
  对于 en-US 和 zh-CN 语言，可以使用任意数量的样本来训练模型；对于其他语言，至少需要 2000 个样本才能训练。
  ii. Testing
  训练完后，系统会自动生成100个随机样本进行测试，可以点进去听一下效果。
  iii. deployment
  如果效果合适，则可将模型部署，便于代码中进行调用
  
  3> Endpoint
  模型部署完后会生成一个 endpoint 节点，参照下图所示的指引即可使用该模型生成语音。
  访问ChatGPT的可用VPS机房IP推荐 Lisahost美国原生IP、搬瓦工美西、 DMIT、 Tripodcloud、 Frantech 。
作者
帖子

正在查看 0 条回复

哎呀，回复话题必需登录。