Tobias Hoffmann

Posted on May 8 • Originally published at apidog.com

GPT-Realtime-2 Nedir ve GPT-Realtime-2 API Nasıl Kullanılır

OpenAI, 6 Kasım 2026'da yeni nesil ses modellerini piyasaya sürdü. Ana sürüm GPT-Realtime-2: GPT-5 sınıfı muhakeme, 128.000 token bağlam penceresi ve cevap kalitesine göre gecikmeyi ayarlayan yapılandırılabilir muhakeme çabası sunan ilk konuşmadan-konuşmaya modeldir. Mevcut Realtime API yüzeyinde çalışır; gpt-realtime kullanıyorsanız geçiş çoğunlukla model adını gpt-realtime-2 yapmak ve yeni oturum alanlarını eklemekten ibarettir.

Apidog'u bugün deneyin

Bu rehberde GPT-Realtime-2'nin ne olduğunu, önceki modele göre nelerin değiştiğini, fiyatlandırmayı ve modeli WebSocket/SIP üzerinden nasıl çağıracağınızı adım adım göreceksiniz. Ayrıca Apidog ile Realtime oturumlarını nasıl kaydedip yeniden oynatabileceğinizi de göstereceğiz; böylece her testte ses kaydını baştan üretmeniz gerekmez.

OpenAI'nin daha geniş 2026 model serisi için GPT-5.5 Nedir yazısına, çok modlu kardeşi için GPT-Image-2 API'si Nasıl Kullanılır yazısına bakabilirsiniz.

TL;DR

GPT-Realtime-2, OpenAI'nin GPT-5 sınıfı muhakemeye, 128k bağlama ve 32k maksimum çıktı token'ına sahip amiral gemisi konuşmadan-konuşmaya modelidir.
Ses fiyatlandırması: 1M giriş token'ı başına 32$, 1M çıkış token'ı başına 64$. Önbelleğe alınmış giriş 1M başına 0.40$'dır.
Yeni sesler: Cedar ve Marin. Realtime API'ye özeldir.
Muhakeme seviyeleri: minimal, low, medium, high, xhigh. Gecikme için varsayılan low'dur.
WebSocket bağlantısı: wss://api.openai.com/v1/realtime?model=gpt-realtime-2
SIP gelen aramalar için: wss://api.openai.com/v1/realtime?call_id={call_id}
Yardımcı modeller:
- GPT-Realtime-Translate: canlı çeviri, 70 giriş dili, 0.034$/dakika.
- GPT-Realtime-Whisper: akışlı STT, 0.017$/dakika.
WebSocket oturumlarını betiklemek, ses olaylarını yakalamak ve çalıştırmaları karşılaştırmak için Apidog kullanabilirsiniz.

GPT-Realtime-2 Nedir?

GPT-Realtime-2, tek geçişli bir konuşmadan-konuşmaya modelidir. Kullanıcı sesini alır, transkripsiyon, muhakeme, araç seçimi ve ses üretimini aynı oturumda yürütür. Yani klasik STT → LLM → TTS boru hattını ayrı ayrı kurmanız gerekmez.

Model şu girişleri kabul eder:

Metin
Ses
Görüntü

Çıktı olarak şunları üretir:

Metin
Ses

Görüntü girişi bu sürümde pratik bir fark yaratır. Örneğin kullanıcı bir ekran görüntüsü paylaşabilir, ajan görüntüdeki hatayı açıklayabilir ve aynı konuşmada sesli olarak yönlendirmeye devam edebilir.

Özellik	Değer
Model Kimliği	`gpt-realtime-2`
Bağlam penceresi	128.000 token
Maksimum çıktı	32.000 token
Modaliteler, giriş	metin, ses, görüntü
Modaliteler, çıktı	metin, ses
Bilgi kesme tarihi	2024-09-30
Muhakeme seviyeleri	minimal, low, medium, high, xhigh
Fonksiyon çağrısı	evet
Uzak MCP sunucuları	evet
Görüntü girişi	evet
SIP telefon araması	evet

gpt-realtime'a göre ne değişti?

GPT-Realtime-2, gpt-realtime-1.5'e göre ölçülebilir kalite artışı getiriyor:

Big Bench Audio, ses zekası: %81,4 → %96,6
Audio MultiChallenge, talimat takibi: %34,7 → %48,5

Bu sonuçlar high ve xhigh muhakeme seviyelerinde elde edildi. Üretimde gecikmeyi düşük tutmak için varsayılan seviye low'dur.

Yeni davranışlar özellikle sesli ajanlarda işe yarar:

Kısa giriş ifadeleri: Model, cevap üretmeden önce “kontrol edeyim” gibi kısa ifadeler kullanabilir. Bu, muhakeme gecikmesini kullanıcı açısından daha doğal hale getirir.
Paralel araç çağrıları: Birden fazla fonksiyonu aynı anda çağırabilir ve bu sırada kullanıcıya ilerlemeyi sesli anlatabilir.
Daha iyi hata toparlama: Belirsiz veya kısmen başarısız dönüşlerde konuşmayı baştan başlatmak yerine akış içinde toparlanabilir.
Ton kontrolü: Oturum boyunca terminolojiyi ve konuşma tonunu daha tutarlı koruyabilir.

Bağlam penceresinin 32k'dan 128k token'a çıkması, uzun destek görüşmeleri, bankacılık senaryoları ve özel ders gibi uzun oturumlarda daha az bağlam kaybı anlamına gelir.

Fiyatlandırma

GPT-Realtime-2 token başına faturalandırılır. Metin, ses ve görüntü girişleri için ayrı oranlar uygulanır.

Token türü	Giriş	Önbelleğe alınmış giriş	Çıktı
Metin	4,00$ / 1M	0,40$ / 1M	24,00$ / 1M
Ses	32,00$ / 1M	0,40$ / 1M	64,00$ / 1M
Görüntü	5,00$ / 1M	0,50$ / 1M	uyg. değil

Önbelleğe alınmış giriş, tekrarlanan bağlamlarda maliyeti önemli ölçüde düşürür. Sabit bir sistem istemi, tekrar kullanılan belge veya kalıcı ajan talimatları kullanıyorsanız cache'i sıcak tutmak önemlidir.

OpenAI serisinin geri kalanıyla karşılaştırmak için GPT-5.5 fiyatlandırması yazısına bakabilirsiniz.

Yardımcı modeller dakika bazında fiyatlandırılır:

GPT-Realtime-Translate: Dakika başına 0,034$. 70 giriş dili ve 13 çıkış dili destekler.
GPT-Realtime-Whisper: Dakika başına 0,017$. Canlı altyazı ve sürekli transkripsiyon için akışlı konuşmadan-metne modelidir.

Kısa seçim rehberi:

Sesli ajan + muhakeme + araç çağrısı gerekiyorsa: GPT-Realtime-2
Canlı çok dilli yorumlama gerekiyorsa: GPT-Realtime-Translate
Sadece transkript gerekiyorsa: GPT-Realtime-Whisper

Uç Noktalar ve Kimlik Doğrulama

GPT-Realtime-2 birkaç farklı API yüzeyinden erişilebilir:

POST https://api.openai.com/v1/chat/completions
POST https://api.openai.com/v1/responses
WSS  wss://api.openai.com/v1/realtime?model=gpt-realtime-2
WSS  wss://api.openai.com/v1/realtime?call_id={call_id}   # SIP için
POST https://api.openai.com/v1/realtime/translations
POST https://api.openai.com/v1/realtime/transcription_sessions

Sesli ajan kuruyorsanız ana uç nokta WebSocket'tir:

wss://api.openai.com/v1/realtime?model=gpt-realtime-2

Gerekli başlıklar:

Authorization: Bearer $OPENAI_API_KEY
OpenAI-Beta: realtime=v1

Ortam değişkenini ayarlayın:

export OPENAI_API_KEY="sk-proj-..."

WebSocket Üzerinden Bağlanma

Minimal Node.js istemcisi:

import WebSocket from "ws";

const ws = new WebSocket(
  "wss://api.openai.com/v1/realtime?model=gpt-realtime-2",
  {
    headers: {
      Authorization: `Bearer ${process.env.OPENAI_API_KEY}`,
      "OpenAI-Beta": "realtime=v1",
    },
  }
);

ws.on("open", () => {
  ws.send(JSON.stringify({
    type: "session.update",
    session: {
      voice: "cedar",
      instructions: "You are a friendly support agent for a fintech app.",
      input_audio_format: "pcm16",
      output_audio_format: "pcm16",
      turn_detection: { type: "server_vad" },
      reasoning: { effort: "low" },
    },
  }));
});

ws.on("message", (raw) => {
  const event = JSON.parse(raw.toString());

  if (event.type === "response.audio.delta") {
    // Base64 PCM16 ses öbeği.
    // Bunu hoparlöre, tarayıcıya veya ses işleme katmanına aktarın.
    process.stdout.write(Buffer.from(event.delta, "base64"));
  }
});

Temel akış şöyledir:

WebSocket bağlantısını açın.
session.update ile oturumu yapılandırın.
Kullanıcı sesi geldikçe input_audio_buffer.append olayları gönderin.
Modelin ses çıktısını response.audio.delta olaylarından okuyun.
Gerekirse response.create ile modelden cevap üretmesini isteyin.

PCM16, 24 kHz için güvenli varsayılandır. Telefon sistemleriyle çalışıyorsanız G.711 mu-law ve A-law desteği de önemlidir.

Python tarafında openai SDK >= 2.1.0, benzer olay adlarını kullanan bir realtime istemcisi sunar. Realtime yüzeyini Responses API ile karşılaştırmak isterseniz GPT-5.5 API'si Nasıl Kullanılır yazısına bakabilirsiniz.

Sesler

Bu sürümle iki yeni ses gelir:

Cedar: sıcak, orta frekanslı erkek sesi. Genel amaçlı ajanlar için iyi varsayılan.
Marin: parlak, net kadın sesi. Çeviri ve duyuru senaryolarında kullanışlı.

Realtime API'de kullanılabilen önceki sesler de devam eder:

alloy
ash
ballad
coral
echo
sage
shimmer
verse

Oturum sırasında sesi değiştirmek için yeni voice değeriyle tekrar session.update gönderebilirsiniz:

ws.send(JSON.stringify({
  type: "session.update",
  session: {
    voice: "marin",
  },
}));

Görüntü Girişi

Bir kullanıcı dönüşüne görüntü ekleyebilirsiniz. Bu, sesli destek ajanlarında özellikle kullanışlıdır: kullanıcı ekran görüntüsü gönderir, ajan hatayı açıklar ve sesli olarak devam eder.

Örnek:

ws.send(JSON.stringify({
  type: "conversation.item.create",
  item: {
    type: "message",
    role: "user",
    content: [
      {
        type: "input_image",
        image_url: "https://example.com/screenshot.png"
      },
      {
        type: "input_text",
        text: "What does this error mean?"
      },
    ],
  },
}));

ws.send(JSON.stringify({ type: "response.create" }));

Yaygın kullanım kalıpları:

Sesli QA: Test kullanıcısı bozuk bir arayüzü gösterir; ajan gördüğünü anlatır ve hata raporu oluşturur.
Saha desteği: Teknisyen kablo paneli fotoğrafı paylaşır; ajan adım adım teşhis yönlendirmesi yapar.
Erişilebilirlik: Kullanıcının ekranı destek çağrısı sırasında sesli olarak açıklanır.

OpenAI'nin görüntü yığını için GPT-Image-2 API'si Nasıl Kullanılır yazısına bakabilirsiniz.

Fonksiyon Çağrısı ve MCP

GPT-Realtime-2 aynı oturumda hem standart fonksiyon araçlarını hem de uzak MCP sunucularını destekler.

Standart fonksiyon çağrısı akışı:

session.update içinde araçları tanımlayın.
Model response.function_call_arguments.delta olayları üretir.
Uygulamanız fonksiyonu çalıştırır.
Sonucu conversation.item.create ile function_call_output olarak geri gönderirsiniz.
Model kullanıcıya sesli yanıt üretir.

Paralel çağrılar bu sürümde daha önemlidir. Model aynı anda birkaç fonksiyonu çağırabilir ve “bakiyenizi ve son üç işleminizi kontrol ediyorum” gibi ara sesli bildirimler yapabilir.

Uzak MCP sunucusu ekleme örneği:

ws.send(JSON.stringify({
  type: "session.update",
  session: {
    tools: [{
      type: "mcp",
      server_url: "https://mcp.example.com/sse",
      allowed_tools: [
        "lookup_account",
        "list_transactions"
      ],
    }],
  },
}));

MCP kullanırken Realtime API, izin verilen araçlara MCP sunucusu üzerinden erişir. Bu, özellikle çok sayıda araca sahip sesli ajanlarda uygulama tarafındaki olay döngüsünü basitleştirir.

MCP sunucularını sesli ajana bağlamadan önce test etmek istiyorsanız Apidog'daki MCP sunucu testi rehberine bakabilirsiniz.

SIP Telefon Araması

GPT-Realtime-2 gerçek telefon aramalarını da alabilir. Kurulum modeli:

SIP trunk'ınızı OpenAI'nin SIP ağ geçidine yönlendirin.
Gelen çağrı için call_id oluşur.
Uygulamanız şu WebSocket oturumuna bağlanır:

wss://api.openai.com/v1/realtime?call_id={call_id}

Model G.711 mu-law ve A-law formatlarını doğrudan kabul eder. Bu nedenle telefon köprünüzde yeniden kodlama yapmanız gerekmez.

Bu özellik çağrı merkezi senaryolarında önemlidir. Telefon ajanları genellikle araç çağrısı yoğun çalışır: hesap sorgulama, işlem listeleme, talep oluşturma, kimlik doğrulama gibi akışlar MCP ve paralel fonksiyon çağrılarıyla doğal biçimde eşleşir.

Muhakeme Seviyeleri

Muhakeme seviyesi, gecikme ve cevap kalitesi arasındaki ana ayardır.

Seviye	Kullanım durumu	Yaklaşık gecikme maliyeti
`minimal`	Tek seferlik evet/hayır cevapları	yok
`low`	Varsayılan; günlük destek ve sohbet	küçük
`medium`	Belirsizlik giderme, karmaşık araç seçimi	orta
`high`	Çok adımlı muhakeme, sesli kod incelemesi	yüksek
`xhigh`	Kıyaslamalar, zor analitik sorular	en yüksek

Varsayılan low'dur. Üretimde önerilen yaklaşım:

low ile başlayın.
Cevap kalitesini ve gecikmeyi ölçün.
Sadece kalite farkı kanıtlanıyorsa medium veya üstüne çıkın.
Telefon aramalarında high ve xhigh seviyelerinin gecikmesini özellikle test edin.

Örnek yapılandırma:

ws.send(JSON.stringify({
  type: "session.update",
  session: {
    reasoning: {
      effort: "low"
    }
  }
}));

Apidog'da Realtime API'yi Test Etme

WebSocket API'lerini terminalden hata ayıklamak zordur çünkü konuşma durumludur. Her oturumda ses çerçeveleri, araç çağrıları, yanıt olayları ve ara durumlar oluşur.

Apidog ile şunları yapabilirsiniz:

WebSocket URL'sini ve OpenAI-Beta başlığını kaydedin.
session.update, input_audio_buffer.append, response.create gibi JSON mesajlarını betik olarak hazırlayın.
Aynı bağlantı üzerinde bu mesajları tekrar oynatın.
Sunucudan gelen olayları ağaç yapısında yakalayın.
İki çalıştırmayı yan yana karşılaştırın.
Muhakeme seviyesini, sesi veya araç listesini değiştirip çıktı farkını ölçün.

Başlamak için:

Apidog'u indirin.
Yeni bir WebSocket isteği oluşturun.
URL olarak şunu girin:

wss://api.openai.com/v1/realtime?model=gpt-realtime-2

Auth bölümüne Bearer token ekleyin.
Header olarak şunu ekleyin:

OpenAI-Beta: realtime=v1

İlk mesaj olarak session.update gönderin.
Sonraki mesajlarda ses çerçevelerini ve response.create olaylarını test edin.

Koleksiyon yapısını HTTP isteklerinde olduğu gibi düzenleyebilirsiniz:

OPENAI_API_KEY için ortam değişkeni
voice için koleksiyon değişkeni
Her bağlantıda çalışan başlangıç betikleri
Farklı muhakeme seviyeleri için ayrı senaryolar

Başka bir hızlı çok modlu modelle karşılaştırmak isterseniz Gemini 3 Flash Önizleme API'si Nasıl Kullanılır yazısına bakabilirsiniz.

SSS

Hangi model kimliğini kullanmalıyım?

gpt-realtime-2. Geri dönmeniz gerekirse önceki model gpt-realtime olarak mevcuttur. Lite sürüm için gpt-realtime-2-mini de yayındadır.

Çıkış sesi çalarken giriş sesini akışla gönderebilir miyim?

Evet. Realtime API varsayılan olarak sunucu tarafı ses aktivite tespiti, yani VAD, kullanır. Kullanıcı konuşmaya başladığında model konuşmayı kesebilir. İsterseniz VAD'ı devre dışı bırakıp dönüş sınırlarını istemciden kontrol edebilirsiniz.

128k bağlam ses token'larını da içeriyor mu?

Evet. Ses de token'lara ayrılır. Bir saniyelik ses, formata bağlı olarak yaklaşık 50 token'dır. Uzun destek aramaları, uzun metin sohbetlerinden daha hızlı bağlam tüketebilir; bu yüzden üretimde token kullanımını ölçmeniz gerekir.

İnce ayar destekleniyor mu?

Henüz değil. Model kartına göre GPT-Realtime-2 şu anda ince ayarı, tahmin edilen çıktıları veya Chat Completions'da metin akışını desteklemiyor. Realtime uç noktası doğal olarak ses akışı sağlar.

Bu, TTS eklenmiş GPT-5.5 ile nasıl karşılaştırılır?

TTS eklenmiş metin modeli, uçtan uca konuşma muhakemesi sağlamaz. Ses farkındalığı olan bir model ton, tereddüt ve vurguyu algılayabilir. Kullanıcının yalnızca ne söylediğine değil, nasıl söylediğine de tepki vermesi gereken ajanlarda GPT-Realtime-2 daha uygun araçtır. Saf metin muhakemesi için GPT-5.5 API'si Nasıl Kullanılır yazısına bakabilirsiniz.

Hangi hız sınırları geçerlidir?

Kademe 1, dakikada 40.000 token ile başlar ve Kademe 5'te 15M TPM'ye kadar ölçeklenir. Hız sınırları model başınadır; mevcut GPT-5 kotası otomatik olarak devredilmez.

Özet

GPT-Realtime-2, sesli ajanlar ile metin ajanları arasındaki farkı azaltır. 128k bağlam, GPT-5 sınıfı muhakeme, görüntü girişi, yerel MCP ve SIP desteği; telefon çağrısı yanıtlayan, ekran görüntüsü yorumlayan, uzak araç çağıran ve konuşma içinde hatadan toparlanan tek bir ajan kurmayı mümkün kılar.

Üretime en hızlı yol:

WebSocket oturumunu Apidog'da betikleyin.
Sabit bir araç listesi tanımlayın.
low muhakeme seviyesiyle başlayın.
Ses, gecikme ve token kullanımını ölçün.
Sadece ölçülebilir kalite farkı varsa muhakeme seviyesini artırın.

DEV Community