SadTalkerの使い方と魅力、画像と音声からアニメーションを作ろう!

人工知能
この記事は約6分で読めます。

はじめに

 皆さんは、SadTalkerを知っていますか?

 SadTalker は、前に紹介した「Creative Reality™ Studio」と同様なことができるツールで、好きな画像やイラストと喋らせたい音声をアップロードするだけで、AIがその画像にアニメーションを付けて動かしながら喋る動画を作成してくれるサービスです。

 ということで、今回は、このSadTalkerについてもう少し深堀して紹介しようと思います。

 この記事を読むと次の疑問について知ることができます。

SadTalker とは?

 SadTalkerは、音声に合わせて口を動かすアニメーションを作成する機能拡張で、CVPR 2023で発表予定の最新のAI技術で、Docker、Colab、Hagging FaceのSpacesなど様々な形で動かすことができます。

 開発者はWenxuan Zhang、Xiaodong Cun、Xuan Wang、Yong Zhang、Xi Shen、Yu Guo、Ying Shan、Fei Wangの8人で、いずれも中国の Xi'an Jiaotong UniversityTencent AI LabAnt Groupの方々です。

 次のサイトに詳細が載っています。

 SadTalkerの特徴を箇条書きで以下に載せます。

  • 一枚絵や画像から任意の音声に合わせて口パクする動画を生成することができるAI技術。
  • SadTalkerは、3Dモーション係数を学習することで、自然な頭の動きや表情を再現可能。
  • GitHubで公開されており、Docker、Colab、Hagging FaceのSpacesなど様々な形で動かすことが可能。
  • オープンソース(MITライセンス)であり、商用利用OKですが、著作権者のクレジットを明記する必要があります。

SadTalker の使い方

 SadTalkerは、先に述べたように色々な方法で利用が可能ですが、パソコンにインストールする場合は、パソコンのスペックが高性能の物(Nvidiaのグラフィックボード)が必要になったり、Google Colabで利用するとなると、無料では利用できなかったりと、少し敷居が高いです。

 そこで、SadTalkerを試せるサイトHagging FaceのSpacesがあり、次のサイトを利用することにより初心者でも容易に画像と音声ファイルを用意すれば、口パク動画を作成が可能です。

 上記のサイトのいずれかを利用して、作成する方法を紹介します。

静止画の用意

 静止画は、「DreamStudio」の「Stable Diffusin SDXL Bata」の「3D model」で制作した女性の画像とLeonardo.AIで作成した老人男性の画像(アニメ風)を利用するようにしました。

音声データの用意

 音声データは、音読さんで作成した女性の声(日本語:ななみ)、と男性の声(日本語:たくみ)を利用しました。

 女性の声(ななみ)

 男性の声(たくみ)

口パク動画の作成

 口パク動画の作成の手順は次の通り。

  1. 用意した画像をアップロードする。
  2. 用意した音声データをアップロードする。
  3. 口パク動画作成条件を設定する
    • Crop : 画像の顔部分を切り取り(拡大して)動画を作成
    • resize : 画像をリサイズして動画を作成
    • Full : 画像のフルサイズで動画を作成
    • w/ Still Mode (fewer hand motion, works with preprocess `full`)の右の□にチェック:
      Full の時に動作し、手の動きなどが小さくなる
    • w/ GFPGAN as Face enhancerの左の□にチェック:
      画像の顔のぼやけを修正するでき、動画のクオリティが上がるけど時間はかかるモード。
  4. 「Generasete」ボタンをクリック
  5. 口パク動画が生成される。
    ダウンロードしたければ、動画の上で右クリックして表示されるメニューで「名前を付けで動画を保存…」をクリック。

 下記が女性の口パク動画です。

 そして、こちらが男性の口パク動画です。

SadTalker の評判

 SadTalker につてい、Twitterでのツイートを調べてみました。

 検索ワードは「SadTalker」で検索して、「話題のツイート」から2つほど載せます。

 利用している方も多くいるようですが、日本人の書き込みは見られませんでした。

 しかし、多くの方が動画をアップしており、日本人の方もこれから増えていくことが予想されます。

SadTalker を使った感想

 SadTalkerは、AIを使って静止画と音声データをアップし、音声を合わせて口パク動画を作成できるツールです。

 このツール(サイト)を試して感じたことは、かなり自然にこちらで入力した言葉を話してくれ、本当に違和感なく聞くことができました。

 前に紹介した「Creative Reality™ Studio」と遜色ない出来上がりであり、オープンソースであるために無料で利用できるとあれば、多くの人が利用することは間違いないと思いました。

 今回はHagging FaceのSpacesで利用しましたが、パソコンで利用できるように環境を整え、自分のYouTubeの導入部や終了の部分に喋る動画を入れこんだものを作成したいと思います。

 皆さんも、無料で利用が可能ですので、試しに口パク動画を作成してみてはいかがだろうか?

おわりに

 皆さんいかがだったでしょうか。

 SadTalker とは?、SadTalker の使い方、静止画の用意、音声データの用意、口パク動画の作成、SadTalker の評判、SadTalker を使った感想などについて解説してきました。

 この記事が少しでも皆様のお役に立てればこれほど嬉しいことはありません。

以上です。

 

コメント

  1. 池田忠 より:

    画像ファイルを日本語に翻訳しても翻訳できないので英語のわからない人にはこのアプリは使えません説明だけでなく、、使用するファイルも日本語でできたらいいのに、、と思います

タイトルとURLをコピーしました