はじめに
皆さんは、SadTalkerを知っていますか?
SadTalker は、前に紹介した「Creative Reality™ Studio」と同様なことができるツールで、好きな画像やイラストと喋らせたい音声をアップロードするだけで、AIがその画像にアニメーションを付けて動かしながら喋る動画を作成してくれるサービスです。
ということで、今回は、このSadTalkerについてもう少し深堀して紹介しようと思います。
この記事を読むと次の疑問について知ることができます。
SadTalker とは?
SadTalkerは、音声に合わせて口を動かすアニメーションを作成する機能拡張で、CVPR 2023で発表予定の最新のAI技術で、Docker、Colab、Hagging FaceのSpacesなど様々な形で動かすことができます。
開発者はWenxuan Zhang、Xiaodong Cun、Xuan Wang、Yong Zhang、Xi Shen、Yu Guo、Ying Shan、Fei Wangの8人で、いずれも中国の Xi'an Jiaotong University 、Tencent AI Lab、Ant Groupの方々です。
次のサイトに詳細が載っています。
SadTalkerの特徴を箇条書きで以下に載せます。
SadTalker の使い方
SadTalkerは、先に述べたように色々な方法で利用が可能ですが、パソコンにインストールする場合は、パソコンのスペックが高性能の物(Nvidiaのグラフィックボード)が必要になったり、Google Colabで利用するとなると、無料では利用できなかったりと、少し敷居が高いです。
そこで、SadTalkerを試せるサイトHagging FaceのSpacesがあり、次のサイトを利用することにより初心者でも容易に画像と音声ファイルを用意すれば、口パク動画を作成が可能です。
静止画の用意
静止画は、「DreamStudio」の「Stable Diffusin SDXL Bata」の「3D model」で制作した女性の画像とLeonardo.AIで作成した老人男性の画像(アニメ風)を利用するようにしました。
音声データの用意
音声データは、音読さんで作成した女性の声(日本語:ななみ)、と男性の声(日本語:たくみ)を利用しました。
女性の声(ななみ)
男性の声(たくみ)
口パク動画の作成
口パク動画の作成の手順は次の通り。
- 用意した画像をアップロードする。
- 用意した音声データをアップロードする。
- 口パク動画作成条件を設定する
- Crop : 画像の顔部分を切り取り(拡大して)動画を作成
- resize : 画像をリサイズして動画を作成
- Full : 画像のフルサイズで動画を作成
- w/ Still Mode (fewer hand motion, works with preprocess `full`)の右の□にチェック:
Full の時に動作し、手の動きなどが小さくなる - w/ GFPGAN as Face enhancerの左の□にチェック:
画像の顔のぼやけを修正するでき、動画のクオリティが上がるけど時間はかかるモード。
- 「Generasete」ボタンをクリック
- 口パク動画が生成される。
ダウンロードしたければ、動画の上で右クリックして表示されるメニューで「名前を付けで動画を保存…」をクリック。
下記が女性の口パク動画です。
そして、こちらが男性の口パク動画です。
SadTalker の評判
SadTalker につてい、Twitterでのツイートを調べてみました。
検索ワードは「SadTalker」で検索して、「話題のツイート」から2つほど載せます。
用AI祝大家五一快乐节快乐吧 #stablediffusion #sadtalker #narakeet #BRAV4 pic.twitter.com/Wb5CqLNaKL
— flyway (@zhang_koala) April 28, 2023
Order Of the Orchid * A Spy Named Orchid (remember to unmute) Ep2 * The Kidnapping of Camila (rough)
Orchid Intro To Ep2#sadtalker #lovoai #playgroundai #starryai #scenarioai pic.twitter.com/j5W4APa7u6— Dave W Baldwin (@DaveWBaldwin1) May 6, 2023
利用している方も多くいるようですが、日本人の書き込みは見られませんでした。
しかし、多くの方が動画をアップしており、日本人の方もこれから増えていくことが予想されます。
SadTalker を使った感想
SadTalkerは、AIを使って静止画と音声データをアップし、音声を合わせて口パク動画を作成できるツールです。
このツール(サイト)を試して感じたことは、かなり自然にこちらで入力した言葉を話してくれ、本当に違和感なく聞くことができました。
前に紹介した「Creative Reality™ Studio」と遜色ない出来上がりであり、オープンソースであるために無料で利用できるとあれば、多くの人が利用することは間違いないと思いました。
今回はHagging FaceのSpacesで利用しましたが、パソコンで利用できるように環境を整え、自分のYouTubeの導入部や終了の部分に喋る動画を入れこんだものを作成したいと思います。
皆さんも、無料で利用が可能ですので、試しに口パク動画を作成してみてはいかがだろうか?
おわりに
皆さんいかがだったでしょうか。
SadTalker とは?、SadTalker の使い方、静止画の用意、音声データの用意、口パク動画の作成、SadTalker の評判、SadTalker を使った感想などについて解説してきました。
この記事が少しでも皆様のお役に立てればこれほど嬉しいことはありません。
以上です。
コメント
画像ファイルを日本語に翻訳しても翻訳できないので英語のわからない人にはこのアプリは使えません説明だけでなく、、使用するファイルも日本語でできたらいいのに、、と思います