Azure custom voice 服务

标签: ,

正在查看 0 条回复
  • 作者
    帖子
    • okass - WirelessLink社区okass
      参与者
      #1252
      Up
      1
      Down
      ::

      Azure custom voice 的服务模型如下:

      forums.wirelesslink.net | azure custom voice

      azure custom voice 提供的模块如下,一共有三个:

      Data:用于数据集的上传,支持单音频用于测试,或者音频+人工标注的文本用于训练
      Model:可直接用 Azure 自带的模型,或者 customized 的模型进行测试
      Endpoint:将训练好的模型进行部署,以便调用

       

      1> Data
      支持的数据类型:

      Custom Voice 支持三种类型的数据,详情可查看(Link):

      i.  短音频(≤ 15s)和对应的文本
      ii. 长音频(≥ 20s)和对应的文本
      iii.单独的音频文件

      • 对于第二种数据类型,Custom Voice 会在后台自动对其进行切分,将其变成第一种类型
      • 对于第三种数据类型,Custom Voice 会在后台自动进行转录生成对应的文本,若音频太长,还会自动进行分割,将其变成第一种类型
      • 以上几种类型都要求将所有的音频打包成一个zip文件,所有的转录文本打包成一个zip文件,通过文件名来进行音频和文本的配对。

      如下图所示,我们将一个 44s 长度的音频按照第二种方式上传后,Custom Voice 会将其自动分成合适长度的 4 段短音频,并会计算相应的指标,用作对于该数据集质量的评估:

      各指标如下:

      • Pronunciation score:发音得分,用来评判发音是否标准,越高越好,尽量需要保证 ≥ 70
      • Signal-noise ratio (SNR):信噪比,声音信号与噪声的比值,越大越好,尽量需要保证 ≥ 20
      • Duration:音频时长,尽量需要保证 ≤ 15s

       

      2> Model
      Model 模块包含如下三个阶段:

      i. Training
      对于 en-US 和 zh-CN 语言,可以使用任意数量的样本来训练模型;对于其他语言,至少需要 2000 个样本才能训练。

      ii. Testing
      训练完后,系统会自动生成100个随机样本进行测试,可以点进去听一下效果。

      iii. deployment
      如果效果合适,则可将模型部署,便于代码中进行调用

       

      3> Endpoint
      模型部署完后会生成一个 endpoint 节点,参照下图所示的指引即可使用该模型生成语音。

      访问ChatGPT的可用VPS机房IP推荐 Lisahost美国原生IP搬瓦工美西DMITTripodcloudFrantech
正在查看 0 条回复
  • 哎呀,回复话题必需登录。
WirelessLink社区
Logo