これは少し試してみましたが結構すごいですね。
トレーニングする必要なしでこういう声にしたいという音声を30秒ほど用意すれば、その声に変換できる!
事前に訓練なしでできるのをゼロショット音声変換というそうです。
言語モデルのゼロショット学習(Zero-shot Learning)とは、ファインチューニングのように言語モデルのパラメーター(=ニューラルネットワークの重みなど)をアップデートすることなく、さらに例示(Examples、見本:Examplars)もない状態で、さまざまなタスクを解決する能力を持つことである。
参考: https://atmarkit.itmedia.co.jp/ait/articles/2307/27/news033.html
以下でデモを試せます。
https://huggingface.co/spaces/Plachta/Seed-VC
オープンソースなので誰でも無料で実装可能です。
https://github.com/Plachtaa/seed-vc
開発者は南洋理工大学電気電子工学部の学生なんですねー。
これの前にもVALL-E-Xという同じようにゼロショットで音声を生成するAIの開発をしている方です。
日本語・英語・中国語でたった3秒の音声から人の声を再現可能なMicrosoftの「VALL-E-X」を独自にトレーニングしたゼロショットモデルが公開中
何はともあれ試してみましょうか。
変換元音声
なりたい音声
生成結果
なんかちょっと声高すぎな気もしますが大分近いですね!
もっといろいろ遊べそうです。
コメント
コメントを投稿