無料で始めるWhisk AI:新しいAI画像生成ツールで創造性を解き放つ

AI
この記事は約9分で読めます。

はじめに

 近年、AI(人工知能)技術は目覚ましい進化を遂げており、特に画像生成の分野では革新的なツールが次々と登場しています。その中でも、Googleが試験運用を開始した「Whisk AI」は、従来の「テキストプロンプト」による画像生成とは一線を画す、全く新しいアプローチを採用したAI画像生成ツールとして注目を集めています。

 Whisk AIの最大の特徴は、テキスト(文章)による複雑な指示を必要とせず、既存の画像を「プロンプト」(指示)として活用できる点です。お手持ちの画像を「主題(Subject)」「場面(Scene)」「スタイル(Style)」の3つの要素として手軽に組み合わせるだけで、想像もしなかったユニークな画像を生成できます。そのため、これまで画像生成AIを使いこなせなかった方でも、無料で気軽に創造性を試す体験が可能です。

 本記事では、この革新的なAI画像生成ツール「Whisk AI」の概要から基本的な使い方、その魅力と可能性について詳しく解説していきます。

Whisk AIとは?テキストプロンプト不要の新発想

 Google Labsが開発したWhisk AIは、複数の画像を基にして新しい画像を生成できるAIサービスです。従来の画像生成AIのように、テキストで具体的な指示や表現したいスタイルを入力する代わりに、画像を直接「プロンプト」(指示)として使用するという革新的な手法を採用しています。

 この手法により、言葉では表現しにくいアイデアやイメージを、視覚的にAIへ伝えることが可能になります。例えば、「犬の写真」と「街の写真」を入力すれば「街を散歩する犬の画像」を生成したり、「メイド服を着た人物の画像」と「雪山の画像」を入力すれば「雪山を背景にしたメイド服姿の人物の画像」を生成するなど、自由な発想で画像を組み合わせることができます。

 Whisk AIは、「主題(Subject)」「場面(Scene)」「スタイル(Style)」の3つの要素を表す画像をアップロードすることで、新しい画像を生成します。これにより、複雑なテキストでの説明が不要となり、視覚的なアイデアを簡単に形にできます。テキストによる指示(テキストプロンプト)も補助的に使用できますが、現時点では英語での入力が推奨されています。

Whisk AIの仕組み:GeminiとImagen 3の連携

 Whisk AIの内部では、Googleの高性能なAIモデルである「Gemini」と、最新の画像生成モデル「Imagen 3」が連携して動作しています。

 ユーザーがアップロードした画像は、まずGeminiによって詳細な「キャプション」が自動的に生成されます。Geminiは、画像に写っている被写体、背景、画風(スタイル)などを理解し、それをテキスト情報として表現する役割を担います。

 次に、Geminiが生成したキャプションがImagen 3に取り込まれ、その情報に基づいて新しい画像が作成されます。Imagen 3は、Googleの高性能な画像生成モデルであり、Geminiが読み取った画像の「本質的な特徴」を捉え、高品質な画像を生成することが可能です。Whisk AIは、元の画像をそのままコピーするのではなく、画像が持つ特徴を理解して新しい画像を生成するため、生成された画像では、元の画像と人物の身長、髪型、肌の色などが異なる場合があります。

 このプロセスにより、Whisk AIは単に画像を合成するだけでなく、それぞれの画像が持つ意味や特徴を理解し、それらを反映させた新しい画像を生成することができるのです。

Gemini:Googleが開発した、テキスト、画像、音声などを理解し生成できる高性能なAIモデル群。
Imagen 3:Googleが開発した、テキスト指示から高品質な画像を生成できる最新のAIモデル。
キャプション:画像の内容を説明する短いテキストのこと。ここではAIが自動生成したものを指す。

Whisk AIの魅力:直感的な操作と多様な表現

 Whisk AIの大きな魅力の一つは、その直感的な操作性です。複雑な「パラメーター」設定などは不要で、画像をドラッグ&ドロップ(マウスで掴んで移動させる操作)でアップロードするだけで、AIが自動的に画像を解析し、新しい画像を生成してくれます。特別な技術や知識は必要ありません。

  1. 「ゼロから作ってみる」:モデル(主題)、背景(場面)、スタイルの3つの要素となる画像を自由に組み合わせられます。

    • モデル(主題):Whish AIに作成してもらうことも好きな画像をアップロードすることも可能
    • 背景(場面)Whish AIに作成してもらうことも好きな画像をアップロードすることも可能
    • スタイル:左上の「」をクリックすると設定が開きますので、「テンプレートを選ぶ」をクリックして「ステッカー」、「ピンバッジ」、「ぬいぐるみ」、「カード」、「チョコレート」、「カプセルトイ」、「お弁当」から選択
    • 縦横比:左上の「」をクリックすると設定が開きますので、縦横比から「横長(デフォルト)」、「真四角」、「縦長」から選択
  2. 「サイコロを振る」機能:アイデアに困ったときに、おすすめの組み合わせを提案してくれます。

 また、Whisk AIは多様な表現を可能にします。アップロードする画像の組み合わせ次第です。イラスト調からリアルな写真のような画像まで生成できるため、多様な要望に応える可能性があります。

 さらに、生成された画像は再度プロンプトとして利用できるため、気に入った画像からさらに別の画像を生成していくことも可能です。簡単なテキストプロンプトを併用することで、より細かな指示を加えることもできます。生成された画像の元になったプロンプト(画像やテキスト)は、確認したり編集したりすることも可能です。

パラメーター:AIの動作を細かく調整するための設定値のこと。例えば、画像の精細度や画風の強弱などを調整する際に使われます。

無料で始めるWhisk AI:利用方法

 Whisk AIは、現在試験運用として無料で提供されています。利用を開始するには、以下の簡単な手順に従います。

  1. 公式サイトにアクセスします。

  2. Googleアカウントでログインします。
  3. メイン画面で画像をアップロードします。

    • 作ってみるの右にある四角の部分をクリックして、「ぬいぐるみ」、「カプセルトイ」、「お弁当」のいずれかのスタイルを選択し、「ここに画像をドロップする」などの指示に従って、モデルの元となる画像をアップロードします。
    • 「ゼロから作ってみる」を選択すると、それぞれの要素に対応する画像をアップロードできます。
  4. 必要に応じて、簡単なテキストプロンプトを入力します。

    • 現時点では、英語での入力が推奨されています。
  5. 生成ボタンをクリックします。

    • 画面右下の矢印ボタンを押すことでも生成できます。AIが画像を組み合わせて新しい画像を生成します。
  6. 生成された画像を確認し、保存します。

    • 気に入った画像があれば、画像にカーソルを合わせると表示されるダウンロードボタンで保存できます。
    • お気に入りに追加することも可能です。

 また、前述の通り、Whisk AIには「サイコロを振る」機能もあり、手軽に画像生成を試すことができます。

実践例:「ゼロから作ってみる」を使ってみよう

 ここでは、「ゼロから作ってみる」モードを使った簡単な例を紹介します。

  1. 主題(Subject)の選択:

    • お手持ちの「リス」が写っている画像 [リスの画像] をアップロードします。これが画像の中心的なテーマになります。ここでは、「Adorable Squirrel」と入力してWhish AIに作成してもらいました。
  2. 場面(Scene)の選択:

    • 「ビーチ」の風景画像 [ビーチの画像] をアップロードします。これが画像の背景や状況を設定します。ここでは、「White sandy beach」と入力してWhish AIに作成してもらいました。
  3. スタイル(Style)の選択:

    • 「水彩画」の画像 [水彩画の画像] をアップロードします。これが生成される画像の画風や質感を決定します。ここでは、「watercolor painting」と入力してWhish AIに作成してもらいました。
  4. 生成:

    • 生成ボタンをクリックします。
  5. 結果:

    • AIはこれらの画像を解釈し、「ビーチにいるリス」を「水彩画風」に描いた、新しいユニークな画像を生成します。

 このように、特別な指示を文章で書かなくても、画像を組み合わせるだけで直感的にアイデアを形にすることができます。

Whisk AIの可能性:広がる創造性の活用シーン

 Whisk AIは、そのユニークな機能と使いやすさから、様々な分野での活用が期待されています。

  • アイデア出しとコンセプト作成:言葉にしにくいイメージを素早く画像化し、デザインや企画の初期段階におけるアイデアの視覚化に役立ちます。
  • クリエイティブコンテンツの制作:SNSの投稿画像、ブログの「アイキャッチ」、プレゼンテーション資料の挿絵など、多様なビジュアルコンテンツを簡単に作成できます。
  • パーソナルな楽しみ:自分のペットや好きなものをテーマに、ユニークな画像を生成して楽しむことができます。
  • 教育分野:視覚的な教材作成や、子供たちの想像力を刺激するツールとしての活用も考えられます。
  • ビジネスにおける活用

    • 広告やマーケティングの初期イメージ作成
    • 商品開発のアイデア出し
    • 広告バナーやSNS広告の大量作成
    • 「AIインフルエンサー」「バーチャルキャラクター」の制作
    • グリーティングカードやポストカードの作成

 ただし、Whisk AIはまだ試験運用段階であることに注意が必要です。

  • 生成される画像は、入力画像の完全な複製ではありません。
  • 商用利用に関する明確な規定は現時点では公表されていません。生成された画像をそのまま直接的に商用利用すること(例: 画像素材として販売するなど)は、リスクが高いと考えられます。
  • 著作権侵害のリスクも考慮する必要があります。利用規約は常に最新の情報を確認するようにしましょう。
  • 著名人の画像、子供の写実的な画像、暴力的・差別的・性的なコンテンツの生成は制限されています。
  • 特定の個人を完全に再現したり、あまり知られていない商品や複雑な構図を再現したりすることは苦手な場合があります。

アイキャッチ:ブログ記事やウェブサイトなどで、読者の注意を引きつけるために使われる画像のこと。
AIインフルエンサー:AIによって生成された、実在しないインフルエンサー(SNSなどで影響力を持つ人物)。
バーチャルキャラクター:コンピューターグラフィックスなどで作成された架空のキャラクター。

おわりに

 GoogleのWhisk AIは、画像を入力として新しい画像を生成するという斬新なアプローチにより、画像生成AIの可能性を大きく広げるツールです。無料で手軽に始められ、直感的な操作性を持つため、テキストプロンプトの知識がない方でも、手持ちの画像を組み合わせるだけで、誰でも創造性を発揮できます。これからのクリエイティブな活動において、強力なパートナーとなる可能性を秘めています。

 Whisk AIは、GeminiとImagen 3というGoogleの最先端AIモデルを基盤としており、アイデア出し、コンテンツ制作、個人的な楽しみ、教育、ビジネスなど、多岐にわたる分野での活用が期待されます。

 まだ試験運用段階ではありますが、Whisk AIがもたらす「テキストプロンプト不要」の新しい画像生成体験は、多くの人々の創造性を刺激し、新たな表現の可能性を拓くものと期待されます。ぜひこの機会にWhisk AIを試して、あなた自身のユニークなアイデアを形にしてみてください。

 以上です。

コメント

タイトルとURLをコピーしました