Akira

Posted on May 8 • Originally published at apidog.com

2026年おすすめ音声モデル：Grok Voice vs GPT-Realtime 徹底比較

xAIがGrok Voiceを、OpenAIがGPT-Realtime-2を同じ週に展開したことで、2026年に音声モデルを選ぶ開発者には2つの現実的な主力候補があります。どちらも推論機能付きの音声対音声モデルで、WebSocket経由で動作し、ツール利用をサポートし、人間らしい抑揚で応答します。選定では、レイテンシ、価格、音声カタログ、推論の深さ、SIP・画像入力・音声クローニングの要否を具体的に比較してください。個別の導入手順は「GPT-Realtime-2の使い方」と「Grok Voiceを無料で使う方法」を参照できます。負荷下でWebSocketセッションを検証する場合は、Apidogを使うと比較テストを組みやすくなります。

今すぐApidogを試す

要約

Grok Voice (grok-voice-think-fast-1.0) は、レイテンシ、無料コンソールアクセス、音声カタログ、音声クローニングで優位です。
GPT-Realtime-2 は、推論の深さ、128kコンテキストウィンドウ、画像入力、ネイティブSIP、MCPで優位です。
有料利用の価格は大きく異なります。GPT-Realtime-2は音声入力が100万オーディオトークンあたり$32、音声出力が$64です。Grok Voiceはコンソール上では音声の分単位課金がなく、Grok 4.3の推論に対して100万トークンあたり$1.25/$2.50を支払います。
大量利用、低レイテンシ、音声クローニングが必要なアプリではGrok Voiceを優先します。
複雑な推論、マルチモーダル音声エージェント、SIPベースのコールセンターではGPT-Realtime-2を優先します。
ApidogでWebSocketテストを一度作成すれば、URLを切り替えて両モデルを比較できます。

2つのモデルを1つの表で比較

機能	Grok Voice (`grok-voice-think-fast-1.0`)	GPT-Realtime-2
最初の音声出力までの時間	1秒未満（xAIの主張: 最も近い競合より約5倍速い）	`low` 推論では1秒未満、`high` / `xhigh` ではより遅い
推論レベル	low / medium / high（Grok 4.3が基盤）	minimal / low / medium / high / xhigh
基盤となる知能	Grok 4.3（知能指数 53）	GPT-5クラス
コンテキストウィンドウ	1,000,000トークン（Grok 4.3）	128,000トークン
プリセット音声	80以上（Eve、Ara、Rex、Sal、Leoの5つの音声エージェントペルソナ）	10（新しく2つ: Cedar、Marin。8つは再調整済み）
言語（TTS）	28	公式には非公開
言語（STT）	25	GPT-Realtimeから継承
音声クローニング	あり。1分サンプル、2分未満のトレーニング	なし
画像入力	なし（テキスト + 音声のみ）	あり（写真、スクリーンショット）
リモートMCPサーバー	ツール利用は可能。ネイティブMCPは宣伝されていない	あり（APIがMCPツールを実行）
ネイティブSIP / 電話発信	自前のSIPプロバイダーを使用	あり（`?call_id={call_id}` エンドポイント）
オーディオ形式	PCM16、MP3、μ-law	PCM16、G.711 μ-law、A-law
料金モデル	音声についてはコンソールで無料。Grok 4.3の推論のみ課金（$1.25/$2.50/1M）	入力オーディオ1Mあたり$32、出力オーディオ1Mあたり$64、テキスト1Mあたり$4/$24
コンプライアンス	SOC 2 Type II、HIPAA準拠（BAA）、GDPR	SOC 2、GDPR（OpenAI Enterpriseに準拠）

レイテンシで選ぶならGrok Voice

xAIは、grok-voice-think-fast-1.0について「最も近い競合より約5倍速い」と主張しています。この倍率はxAI自身のベンチマークに基づくため、そのまま採用するのではなく自分のワークロードで測定してください。

ただし、方向性としてはGrok Voiceが低レイテンシ寄りです。Grokの最初の音声出力までの時間は1秒を大きく下回り、GPT-Realtime-2は推論レベルに応じておおむね800ms〜1500msの範囲に収まります。

実装時は、最低限以下を計測します。

- WebSocket接続開始時刻
- ユーザー音声送信完了時刻
- 最初の音声チャンク受信時刻
- 応答完了時刻
- 推論レベル
- 使用トークン数

電話やライブ会話では、600msと1200msの差が体感品質に直結します。ユーザーが「自然に会話できる」と感じるか、「ボットが考え込んでいる」と感じるかを分ける要素です。

推奨: 消費者向け音声アプリ、音声チャット、リアルタイム応答が重要なUXでは、まずGrok Voiceを検証してください。

価格設定は課金単位から比較する

両者は課金の形が異なるため、単純なモデル単価だけでは比較できません。

GPT-Realtime-2

GPT-Realtime-2は音声をトークンとして課金します。

音声入力:  $32 / 1M audio tokens
音声出力:  $64 / 1M audio tokens
テキスト:  $4 / $24 / 1M tokens

1秒の音声は約50トークンです。均衡の取れたターン制の5分間会話では、約30,000トークン、つまり音声I/Oで約$1.50を消費します。安定したシステムプロンプトでは、キャッシュ入力によりコストを下げられます。

Grok Voice

Grok Voiceは、xAIコンソール上ではTTS、STT、音声エージェント、カスタム音声に対して分単位または音声トークン単位の課金がありません。課金対象はGrok 4.3の推論です。

推論入力: $1.25 / 1M tokens
推論出力: $2.50 / 1M tokens

同じ5分間通話では、推論トークンは音声トークンより約1桁少なくなりやすいため、$0.10未満に収まる可能性があります。

推奨: 1日あたり10,000分以上の大量利用を想定する場合は、Grok Voiceの単位経済を先に検証してください。営業電話や規制対象サポートなど少量・高リスクのフローでは、価格差より推論品質を優先します。

Grok 4.3の価格については「Grok 4.3 APIの使い方」、OpenAIの価格については「GPT-5.5の価格設定」も参照してください。

推論の深さで選ぶならGPT-Realtime-2

GPT-Realtime-2は、OpenAIが「GPT-5クラス」と説明する音声対音声モデルです。Big Bench Audioでは96.6%、Audio MultiChallengeでは48.5%を記録しています。minimalからxhighまで5段階の推論レベルを指定できるため、リクエストごとにレイテンシと品質を調整できます。

実装では、ユースケースごとに推論レベルを固定せず、ルーティングするのが現実的です。

function selectReasoningLevel(intent) {
  if (intent === "faq" || intent === "simple_status_check") {
    return "low";
  }

  if (intent === "sales_call" || intent === "workflow_dispatch") {
    return "medium";
  }

  if (intent === "regulated_support" || intent === "multi_tool_reasoning") {
    return "high";
  }

  return "low";
}

Grok VoiceはGrok 4.3を基盤にしています。Grok 4.3はArtificial Analysisで知能指数53を達成し、146モデル中10位にランクインしました。エージェントタスクに強い一方、公開ベンチマーク上の音声対音声推論ではGPT-Realtime-2が優勢です。

推奨: エージェントが意図の明確化、多数のツール選択、長い会話履歴に基づく判断を行う場合は、GPT-Realtime-2を優先してください。FAQや定型スクリプト中心なら、Grok Voiceの低レイテンシが勝つ場面が多くなります。

音声カタログで選ぶ

Grokは28言語にわたる80以上のプリセット音声を提供します。音声エージェントではEve、Ara、Rex、Sal、Leoの5つのペルソナを使い、TTSではより広いライブラリから選択できます。さらに、音声クローニングにも対応しています。

GPT-Realtime-2は合計10音声です。Realtime API向けの新しいCedar、Marinに加え、alloy、ash、ballad、coral、echo、sage、shimmer、verseの8音声が再調整されています。音声数は少ないですが、一貫したオーディオスタックと予測しやすい抑揚制御が強みです。

推奨:

ブランド音声、地域アクセント、キャラクター音声が必要: Grok Voice
少数の高品質音声で一貫性を重視: GPT-Realtime-2

音声クローニングが必要ならGrok Voice

xAIのカスタム音声は、約1分のクリアなスピーチから音声をクローンし、2分以内にvoice_idを返します。同じvoice_idはTTSエンドポイントと音声エージェントの両方で使えます。

OpenAIは現在、Realtime APIで音声クローニングを公開していません。

推奨: カスタムブランド音声やキャラクター音声が要件に含まれるなら、Grok Voiceを選んでください。

画像入力が必要ならGPT-Realtime-2

GPT-Realtime-2は、テキスト、音声、画像を入力として受け取れます。ユーザーのターンにスクリーンショットや写真を添付し、エージェントに内容を説明させながら会話を継続できます。

代表的なユースケースは以下です。

- フィールドサポート
- 音声駆動QA
- アクセシビリティ向けナレーション
- 画面共有中のトラブルシューティング

Grok Voiceは現在、テキストと音声のみです。

推奨: エージェントがユーザーの画面や写真を理解する必要があるなら、GPT-Realtime-2を選んでください。

OpenAIのビジョンスタックについては「GPT-Image-2 APIの使い方」も参照できます。

SIPおよび電話統合

OpenAIのRealtime APIはネイティブSIPをサポートしています。SIPトランクをOpenAIのゲートウェイに向け、インバウンドコールでは次のようなWebSocketセッションを開きます。

wss://api.openai.com/v1/realtime?call_id={call_id}

この構成では、独自のSIPブリッジ層を省略できます。

一方、Grok Voiceは電話向けにμ-law出力をサポートしていますが、Twilio、Telnyx、PlivoなどのSIPプロバイダーとブリッジは自分で実装する必要があります。

ユーザー電話
  -> SIPプロバイダー
  -> 自前ブリッジ
  -> Grok Voice WebSocket
  -> 自前ブリッジ
  -> SIPプロバイダー
  -> ユーザー電話

推奨: コールセンターエージェントを短期間で構築し、SIP統合の実装量を減らしたい場合はGPT-Realtime-2が適しています。

MCPとツール利用

どちらのモデルも関数呼び出しをサポートします。違いはMCPの扱いです。

GPT-Realtime-2 はリモートMCPサーバーをネイティブにサポートします。サーバーURLとツール許可リストを設定すると、Realtime APIがMCPツール呼び出しを実行します。
Grok Voice は関数呼び出しをサポートし、組み込みのweb_searchツールを持ちます。ただし、MCPは第一級プリミティブとしては宣伝されていません。

ツール数が少ない場合は通常の関数呼び出しで十分です。

const tools = [
  {
    name: "get_order_status",
    description: "注文IDから配送状況を取得する",
    parameters: {
      type: "object",
      properties: {
        order_id: { type: "string" }
      },
      required: ["order_id"]
    }
  }
];

一方、銀行、保険、社内業務エージェントのように50以上のツールを横断する場合は、MCP統合が重要になります。音声エージェントのホットパスで自前サーバーを往復させずにツールをディスパッチできるためです。

MCPサーバー単体の検証については「ApidogでのMCPサーバーテスト」を参照してください。

ユースケース別の選び方

消費者向け音声アプリ、大量利用、低レイテンシ重視: Grok Voice
音声クローニングが必要: Grok Voice
10言語以上の多言語TTS: Grok Voice
スクリーンショットや写真を理解する音声エージェント: GPT-Realtime-2
SIPを使うコールセンター: GPT-Realtime-2
50以上のツールを持つ多段階推論エージェント: GPT-Realtime-2（MCP）
長文コンテキスト会話: GPT-Realtime-2。ただし1Mコンテキストを活用でき、音声トークンコストを許容できるならGrok 4.3も検討
最も安価な本番環境音声エージェント: コンソール版Grok Voice
ベンチマーク重視の高精度推論: xhigh推論を使うGPT-Realtime-2

導入前に両方をテストする手順

最初にどちらかを決め打ちするより、同じ会話フィクスチャを使って1週間比較する方が安全です。

1. フィクスチャ会話を作る

10ターン程度の会話を用意します。最低限、以下を含めます。

- 1つのツール呼び出し
- 1つの曖昧さ解消
- 1つの長い回答
- 実ユーザー音声の録音
- 中断または言い直し

2. WebSocketリクエストを一度だけ作る

ApidogでWebSocketリクエスト、JSONメッセージシーケンス、環境変数を設定します。

XAI_API_KEY
OPENAI_API_KEY

3. 実行ごとにURLを切り替える

Grok Voice:

wss://api.x.ai/v1/realtime?model=grok-voice-think-fast-1.0

GPT-Realtime-2:

wss://api.openai.com/v1/realtime?model=gpt-realtime-2

4. 同じ指標を記録する

比較では、主観評価だけでなく数値を残します。

- first_audio_latency_ms
- total_response_time_ms
- interruption_recovery_time_ms
- input_audio_tokens
- output_audio_tokens
- reasoning_tokens
- estimated_cost
- tool_call_success_rate
- human_rating

5. 結果をバージョン管理する

Apidogのコレクション形式はポータブルです。比較用のリクエスト、環境変数、レスポンス例をリポジトリに置けば、チーム内で再現できます。

FAQ

同じアプリで両方のモデルを使い、ランタイムでルーティングできますか？

できます。どちらも近いイベント形状で動作します。軽い意図分類器を前段に置き、カジュアルな用途はGrok Voice、複雑な推論やツール利用はGPT-Realtime-2へ送る構成が現実的です。

非英語の音声品質はどちらが良いですか？

Grokは言語カバレッジで優位です。80以上の音声とTTSで28言語を提供します。ただし、両方が対応する言語では実際の品質差が小さい場合もあるため、対象言語ごとに録音サンプルで評価してください。

GPT-Realtime-2は一般的なワークロードに対して高い価格を払う価値がありますか？

FAQ応答中心のカスタマーサポートなら、必ずしも価値があるとは限りません。CRMを読み込み、複数ツールをディスパッチし、中断から回復しながら会話を継続する営業エージェントでは、推論品質の差に価値があります。

どちらかのモデルで有名人の実際の音声をクローニングできますか？

できません。どちらのベンダーも、音声クローニングは同意されたサンプルに限定しています。許可なく有名人をクローニングすることは、両プラットフォームの利用規約に違反します。

後から一方からもう一方へ移行するにはどうすればよいですか？

イベント名やsession.updateペイロードは異なりますが、会話の構造は近いです。主な作業は、セッション設定、イベントハンドラ、ツール呼び出し部分の差し替えです。Apidogでテスト用コレクションを作っておくと、移行時に比較しやすくなります。

まとめ

Grok VoiceとGPT-Realtime-2の間に、すべてのケースで正しい選択はありません。判断軸は、レイテンシ、価格、音声カタログ、推論の深さ、SIP・MCP・画像入力などの統合要件です。

低レイテンシの消費者向け音声アプリを作るなら、Grok Voiceを先に検証してください。画像を理解し、50個以上のツールを扱い、SIPブリッジなしで電話対応するマルチモーダル音声エージェントを作るなら、GPT-Realtime-2を選ぶ方が実装しやすくなります。

迷う場合は、ApidogでWebSocketテストを一度作り、同じ会話フィクスチャで両方を1週間測定してください。最終判断は、推測ではなくレイテンシ、成功率、コストのデータで行うべきです。

DEV Community