インド発「Maya1」とは?23歳の開発者がGoogleを超えたAI音声モデルの衝撃的な仕組みと使い方を徹底解説

AI
この記事は約16分で読めます。

インド発「Maya1」とは?23歳の開発者がGoogleを超えたAI音声モデルの衝撃的な仕組みと使い方を徹底解説のPodcast

下記のPodcastは、Geminiで作成しました。

ストーリーブック

『「Maya1」:世界を変えた二人の若者と、"心"を持つ声』の絵本を見る

はじめに

2025年11月、世界のAIコミュニティに激震が走りました。インドから現れた、わずか23歳の創業者2人組が、「Maya1(マヤ・ワン)」と名付けられた新型の音声合成AIモデルを公開したのです 。   
このニュースが単なる「新しいAIの登場」としてではなく、「衝撃」として受け止められたのには明確な理由があります。Maya1は、独立系のベンチマークにおいて、オープンソース(設計図や中身が公開されている)の音声AIモデルとして世界第2位の性能を記録し、その性能はGoogleが開発した最高レベルのモデルの一部をも上回ったと報告されています 。   
さらに驚くべきは、その実用性です。Maya1は、30億(3B)パラメータという強力な頭脳を持ちながら 、一般の高性能PCでも使われる単一のGPU(画像処理半導体)で動作可能です 。そして、人間が知覚できないほどの極めて短い「100ミリ秒(ms)以下」という低遅延(sub-100ms latency)で、20種類以上の豊かな感情表現をこめた音声をリアルタイムで生成できます 。   
従来、これほどの高性能なAIは、OpenAIやGoogleといった巨大テック企業が、高額な利用料のかかるクローズドなAPI(外部から機能を利用するための窓口)として提供するのが常識でした。
しかし、Maya1は、その常識を覆し、Apache 2.0という非常に寛容なライセンスのもと、誰でも(一定の条件下で)自由に利用・改変できる完全なオープンソースとして公開されたのです 。   
この記事では、AI業界の勢力図を塗り替える可能性を秘めた「Maya1」について、その開発者の素顔、他を圧倒する性能の秘密、そして私たちでもすぐに試せる具体的な使い方まで、AIに初めて触れる方にも分かりやすく、徹底的に解説します。

開発者:23歳の「天才」たちの素顔と、その背景にある支援

この世界的なブレークスルーは、一体どのような人物によって成し遂げられたのでしょうか。
Maya1を開発したのは、Dheemanth Reddy(ディーマンフ・レッディ)氏と、Bharath Kumar(バーラト・クマール)氏の2名です 。彼らは2人とも23歳で 、その若さにもかかわらず、Reddy氏はCEO(最高経営責任者)、Kumar氏はCTO(最高技術責任者)として、スタートアップ「Maya Research」を率いています 。   

彼らの経歴は、単なる「若き天才」という言葉だけでは片付けられません。2人はともに、米国ニューヨーク大学(NYU)の卒業生です 。この事実は、彼らがAI研究の最前線である米国で、世界トップレベルの教育と知識を吸収してきたことを示しています。   
さらに、彼らのスタートアップ「Maya Research」は、インドのITハブであるベンガルール(旧称バンガロール)に拠点を置いています 。そして、シリコンバレーの著名な起業家コミュニティ兼アクセラレーターである「South Park Commons」からの支援を受けていることが公表されています 。   
これは、現代のAI開発における「グローバル・ハイブリッド型」の成功モデルと言えます。つまり、「米国の最高学府(NYU)で最先端の技術を学び」、「米国のトップティアの投資コミュニティ(South Park Commons)から支援を受け」、「世界有数のAI・IT人材が集積する母国(インド・ベンガルール)で開発を行う」という、グローバルなリソース配分の最適解を実行したのです。
彼らの成功は、一部の天才による偶然の産物ではなく、世界最高水準の知識、資金、そして人材が戦略的に組み合わさった結果であり、その開発背景こそがMaya1の信頼性と権威性を裏付けています。

Maya1の核心:なぜ「世界第2位」と評価されるのか?

Maya1が「Googleを超えた」や「世界第2位」と評価されるのには、客観的な根拠があります。その評価は、AIの性能を公平に比較・格付けする独立したベンチマーク「Artificial Analysis Speech Arena leaderboard」に基づいています 。 
  
このリーダーボードにおいて、Maya1は「オープンウェイト」(重み=パラメータが公開されている)カテゴリで第2位に、そしてクローズドな商用モデルを含む全カテゴリでも第20位にランクインしました 。   
Maya1の真の価値は、既存の主要な音声AIサービスと比較することで、より鮮明になります 。 

Maya1と主要音声AIサービスの機能比較

機能Maya1ElevenLabsOpenAI TTSCoqui TTS (Open)
オープンソースはい (Apache 2.0)いいえいいえはい
感情表現20種類以上限定的なしなし
ボイスデザイン自然言語で指定ボイスライブラリ固定複雑
リアルタイム性リアルタイム (低遅延)はいはいいいえ
コスト無料(セルフホスト)従量課金従量課金無料
カスタマイズ性完全限定的不可中程度

この比較表が示す事実は、非常に重要です。
これまで、AI音声の世界には明確な「トレードオフ」が存在しました。ElevenLabsやOpenAI TTSのように「高品質・高機能だが、クローズド(非公開)で高価」なサービスか、あるいはCoqui TTSのように「オープンソースで無料だが、機能や品質、リアルタイム性で劣る」モデルかの二択でした。
Maya1は、この市場の前提を根本から破壊しました。上の表で「Maya1」の列を縦に見ると、既存のオープンソースモデル(Coqui TTS)が持っていなかった「20種類以上の感情表現」や「自然言語でのボイスデザイン」、「リアルタイムストリーミング」といった、これまで最も高価な商用サービスの「売り」であった機能をすべて備えながら、同時に「オープンソース・無料」と「完全なカスタマイズ性」を実現しているのです。
Maya1は、「音声AIは、もはや高価なクローズドAPIの裏に閉じ込められていなくても、プロダクション(商用)レベルの品質に達することができる」という事実を証明しました 。  

Maya1は「なぜ」こんなに凄いのか?技術の裏側を解説

では、なぜMaya1は、これまでのAIが両立できなかった「最高レベルの品質・機能」と「オープンソース・高効率」を同時に実現できたのでしょうか。その技術的な秘密を、3つのステップに分けて分かりやすく解説します。

「脳」:Llamaスタイルの大規模変圧器(トランスフォーマー)

まず、Maya1は非常に賢い「脳」を持っています。その正体は、30億(3B)のパラメータを持つ「デコーダーオンリー・トランスフォーマー(Llamaスタイル)」と呼ばれるアーキテクチャです 。   
「パラメータ」とは、AIの賢さを決める「知識の量」のようなものだと考えてください。30億という数は、AIがテキストの非常に複雑な文脈やニュアンスを深く理解するのに十分な規模です。「Llamaスタイル」とは、現在世界で最も高性能と広く認められているAIの「設計図」の一つであり、Maya1が最先端の思考回路を持っていることを意味します。

「魔法の圧縮」:SNACニューラルコーデックの秘密

ここからがMaya1の最大の技術革新です。
従来の多くの音声AIは、AIの「脳」が「音声そのもの(生の波形データ)」を直接作り出そうとしていました。これは、AIが非常に巨大な「音声ファイル(WAVファイルなど)」を最初から最後まで書き出すようなもので、非常に時間がかかり、リアルタイムで応答するのには不向きでした。
一方、Maya1は全く異なるアプローチをとります。AIの「脳」(Llama)は、音声そのものではなく、「SNAC(スナック)ニューラルコーデック・トークン」と呼ばれる「音声の設計図」を予測・生成します 。   
これは例えるなら、巨大な音声ファイルを送る代わりに、その音声をどうやって作るかを記した超圧縮された「ZIPファイル」や「設計図」を送るようなものです。
この「設計図(SNACトークン)」は、多層的な階層構造を持っており、音声データを約 0.98 kbps という信じられないほど低いビットレート(データ量)にまで圧縮できます 。   
「脳」は、この非常に小さな「設計図」を書き出すだけでよいため、処理が圧倒的に速くなります。そして、「SNACデコーダー」という専用の「再生機」が、受け取った設計図を瞬時に高品質な 24 kHz の音声に復元します 。   
この「考える脳(Llama)」と「発声する声帯(SNAC)」を賢く分離・連携させるアーキテクチャこそが、単一のGPUという限られたパワーでも、100ミリ秒以下の超低遅延(リアルタイム応答)を実現する技術的な鍵なのです 。

「感情」の源泉:独自に整備された訓練データ

Maya1の「脳」が賢く、「声帯」が効率的であることは分かりました。しかし、あの人間らしい「感情表現」はどこから来るのでしょうか。
その秘密は「訓練データ」にあります。Maya1は、インターネット上の膨大な音声データで基礎学習(Pretraining)を行った後、「教師ありファインチューニング(Supervised Fine-Tuning, SFT)」と呼ばれる特別な追加訓練を受けています 。   
このSFTで使われたデータセットこそが、Maya1の「本当の強み」です。それは、Maya Research社が独自に収集・整備した「プロプライエタリ(非公開)データセット」であり、以下のものが含まれています 。   

  • 人間が検証し、タグ付けした「音声記述」
  • 音声サンプルごとに付けられた「20種類以上の感情タグ」
  • 多様なアクセントやキャラクター、役割のバリエーション

AI業界ではこれを「オープンコア」戦略と呼びます。AIモデル(エンジン)自体はオープンソースとして無料で公開し、開発者コミュニティを活性化させます。一方で、そのエンジンを最強にするための「高品質なデータ(燃料)」や「SFTのノウハウ」は非公開のまま保持し、将来のビジネス(例:企業向けのカスタムボイス開発)の核とするのです。Maya1の驚異的な感情表現は、この高品質な「秘伝の燃料」によって支えられています。

Maya1の「感情」と「声色」:自然な言葉でAIを操る

Maya1の最大の魅力は、その高度な技術を、専門家でないクリエイターでも直感的に操れる「制御の容易さ」にあります 。

ボイスデザイン:声優に指示を出すように

従来の音声AIでは、「ピッチ」「速度」「トーン」といった複雑なパラメータをスライダーで調整する必要がありました 。Maya1は、これを根本から変えました。   
ユーザーは、まるで声優やナレーターに「演技の指示書(ブリーフィング)」を渡すかのように、自然な話し言葉(英語)で「どんな声が欲しいか」を記述するだけです 。   
記述例:

  • <description="40-year-old, warm, low pitch, conversational">    

    • (日本語訳:40歳、温かみがあり、低いピッチで、会話調の声)
  • <description="Realistic male voice in the 20s age with a american accent. High pitch, raspy timbre, brisk pacing">    

    • (日本語訳:20代のリアルな男性の声、アメリカンアクセント。高いピッチ、かすれた声質、速いペース)

インライン感情タグ:テキストに「魂」を込める

Maya1のもう一つの革新的な機能が、「インライン感情タグ」です 。これは、読み上げてほしいテキストの「途中」に感情を指定するタグを挿入することで、その単語やフレーズだけ発話の仕方を劇的に変えることができる機能です。   
サポートされる主な感情タグ:    

  • <angry> (怒り)
  • <chuckle> (くすくす笑い)
  • <cry> (泣き)
  • <disappointed> (失望)
  • <excited> (興奮)
  • <gasp> (息をのむ)
  • <giggle> (けたけた笑う)
  • <laugh> (笑い)
  • <laugh_harder> (大笑い)
  • <sarcastic> (皮肉)
  • <sigh> (ため息)
  • <sing> (歌う)
  • <whisper> (ささやき)
  • ...など20種類以上。

使用例:

  • "Hello! This is Maya1 <laugh_harder> the best open source voice AI model with emotions."    

    • (日本語訳:「こんにちは!これがMaya1 <大笑い> 最高の感情表現を持つオープンソース音声AIモデルです。」)

作成された音声を以下に示します。

このように、技術的な知識が一切なくても、脚本家や作家が台本を書くのと同じ感覚で、AIの「感情」を完全にコントロールできます。これはAIの「制御方法」におけるパラダイムシフトであり、AIが「エンジニアの道具」から「クリエイターの道具」へと進化したことを象徴しています 。

Maya1の使い方:デモと実践的応用

この革新的なAI音声モデルは、すでに私たちが無料で試すことができます。

 いますぐ試す:Hugging Faceデモ(Playground)の使い方

Maya1は、AIモデルの共有プラットフォーム「Hugging Face Spaces」上で、「Playground」と呼ばれるデモ(Gradioアプリ)を公開しています 。   
簡単な使い方( に基づく):   

  1. Hugging FaceにあるMaya1のデモページ(参考資料 7)にアクセスします。
  2. 「Voice Design」(ボイスデザイン):

    • Character Selection: 4種類のプリセット(事前設定)からキャラクターを選ぶか、
    • Voice Description: テキストボックスに、前章で紹介したような「声の説明」(例: Realistic male voice in the 20s...)を英語で自由に入力します。
  3. 「Text to Speak」(読み上げるテキスト):

    • 読み上げてほしい英語のテキストを入力します。
    • 感情を変えたい箇所に、<sigh>(ため息)や <laugh>(笑い)などの感情タグを挿入します。
  4. 「Generate Speech」(音声を生成):

    • ボタンをクリックすると、数秒で音声が生成され、その場で再生できます。
    • (任意)「Advanced Settings」(詳細設定)で、Temperature(ランダム性・創造性)や Max Tokens(最大長)を調整することも可能です。

活用シナリオ:Maya1が変える未来

Maya1の登場により、これまで高額な費用や専門知識が必要だった多くの分野が、劇的に変わる可能性があります 。   

  • ゲーム開発: 録音済みのセリフを再生するのではなく、プレイヤーの行動に応じて感情を込め、異なるセリフをリアルタイムで生成するNPC(ゲーム内キャラクター)が実現できます 。   
  • コンテンツ制作: YouTube、TikTok、ポッドキャスト、オーディオブックのナレーションを、声優を雇うことなく、極めて自然な感情表現で安価に制作できます 。   
  • AIアシスタント: 「はい、分かりました」といった無機質な応答ではなく、文脈に応じて喜びや困惑、共感といった感情的な応答ができる、より人間らしいAIアシスタントやチャットボットが構築できます 。   
  • 顧客サービス: 怒っている顧客には落ち着いたトーンで、喜んでいる顧客には明るいトーンで応答するなど、「共感」できる感情的なAIボイスボットを導入できます 。 

結論:Maya1がオープンソースAIの「新しい標準」となる理由

Maya1がAI業界に与えた「衝撃」をまとめます。
それは、「プロダクション(商用)品質」で、「20種類以上の豊かな感情」を持ち、「リアルタイム(100ms以下)」で応答できる最先端の音声AIが、もはやGoogleやOpenAI、ElevenLabsといった巨大企業の「高価なクローズドAPI」の専売特許ではなくなった、という事実を証明したことです 。   
Dheemanth Reddy氏とBharath Kumar氏という2人の若き開発者は、高品質な音声AI市場の「コモディティ化(一般化・低価格化)」を一気に加速させました。
Maya1の登場により、AI音声市場の競争軸は、「良い声を出す」ことから、「いかに特定の声(例えば自分の声)を高品質にクローニング(複製)できるか」  や、「いかに特定の業界ドメイン(医療、金融、ゲームなど)に特化した高品質な訓練データ(SFT)を提供できるか」といった、より高度なカスタマイズ性と付加価値の領域へとシフトしていくことは確実です。   
インドの23歳の若者たちが火をつけたこの「オープンソース革命」は、AIと人間の関わり方を、より深く、より感情豊かなものへと変えていく第一歩となるでしょう。

参考資料

  1. The Unwind AI, "Code execution with MCP by Anthropic" (Maya1に関する言及), https://www.theunwindai.com/p/code-execution-with-mcp-by-anthropic
  2. Yahoo! JAPAN リアルタイム検索 (X/Twitterポスト 1986303011032072678), https://search.yahoo.co.jp/realtime/search/tweet/1986303011032072678
  3. Maya Research, "Maya1" (Hugging Face Model Page), https://huggingface.co/maya-research/maya1
  4. Data Science in your pocket, "Maya1: 1st AI Voice Design TTS is Here", https://datascienceinyourpocket.com/2025/11/06/maya1-1st-ai-voice-design-tts-is-here/
  5. New India Abroad, "Bengaluru-based NYU graduates launch open-source voice AI model", https://www.newindiaabroad.com/news/bengaluru-based-nyu-graduates-launch-open-source-voice-ai-model
  6. Medium (Data Science in your pocket), "Maya1: 1st AI Voice Design TTS is Here", https://medium.com/data-science-in-your-pocket/maya1-1st-ai-voice-design-tts-is-here-e499a357db80
  7. Maya Research, "Maya1 - Open Source Emotional Text-to-Speech" (Hugging Face Spaces Demo), https://huggingface.co/spaces/maya-research/maya1
  8. Maya Research, "Official Website", https://www.mayaresearch.ai/
  9. Maya Research, "Team Page", https://mayaresearch.ai/team
  10. Reddit r/StableDiffusion, "Release: New ComfyUI Node - Maya1 TTS", https://www.reddit.com/r/StableDiffusion/comments/1oph2fi/release_new_comfyui_node_maya1_tts/

コメント

タイトルとURLをコピーしました