OpenAI, 6 Kasım 2026'da yeni nesil ses modellerini piyasaya sürdü. Ana sürüm GPT-Realtime-2: GPT-5 sınıfı muhakeme, 128.000 token bağlam penceresi ve cevap kalitesine göre gecikmeyi ayarlayan yapılandırılabilir muhakeme çabası sunan ilk konuşmadan-konuşmaya modeldir. Mevcut Realtime API yüzeyinde çalışır; gpt-realtime kullanıyorsanız geçiş çoğunlukla model adını gpt-realtime-2 yapmak ve yeni oturum alanlarını eklemekten ibarettir.
Bu rehberde GPT-Realtime-2'nin ne olduğunu, önceki modele göre nelerin değiştiğini, fiyatlandırmayı ve modeli WebSocket/SIP üzerinden nasıl çağıracağınızı adım adım göreceksiniz. Ayrıca Apidog ile Realtime oturumlarını nasıl kaydedip yeniden oynatabileceğinizi de göstereceğiz; böylece her testte ses kaydını baştan üretmeniz gerekmez.
OpenAI'nin daha geniş 2026 model serisi için GPT-5.5 Nedir yazısına, çok modlu kardeşi için GPT-Image-2 API'si Nasıl Kullanılır yazısına bakabilirsiniz.
TL;DR
- GPT-Realtime-2, OpenAI'nin GPT-5 sınıfı muhakemeye, 128k bağlama ve 32k maksimum çıktı token'ına sahip amiral gemisi konuşmadan-konuşmaya modelidir.
- Ses fiyatlandırması: 1M giriş token'ı başına 32$, 1M çıkış token'ı başına 64$. Önbelleğe alınmış giriş 1M başına 0.40$'dır.
- Yeni sesler: Cedar ve Marin. Realtime API'ye özeldir.
- Muhakeme seviyeleri:
minimal,low,medium,high,xhigh. Gecikme için varsayılanlow'dur. - WebSocket bağlantısı:
wss://api.openai.com/v1/realtime?model=gpt-realtime-2 - SIP gelen aramalar için:
wss://api.openai.com/v1/realtime?call_id={call_id} - Yardımcı modeller:
- GPT-Realtime-Translate: canlı çeviri, 70 giriş dili, 0.034$/dakika.
- GPT-Realtime-Whisper: akışlı STT, 0.017$/dakika.
- WebSocket oturumlarını betiklemek, ses olaylarını yakalamak ve çalıştırmaları karşılaştırmak için Apidog kullanabilirsiniz.
GPT-Realtime-2 Nedir?
GPT-Realtime-2, tek geçişli bir konuşmadan-konuşmaya modelidir. Kullanıcı sesini alır, transkripsiyon, muhakeme, araç seçimi ve ses üretimini aynı oturumda yürütür. Yani klasik STT → LLM → TTS boru hattını ayrı ayrı kurmanız gerekmez.
Model şu girişleri kabul eder:
- Metin
- Ses
- Görüntü
Çıktı olarak şunları üretir:
- Metin
- Ses
Görüntü girişi bu sürümde pratik bir fark yaratır. Örneğin kullanıcı bir ekran görüntüsü paylaşabilir, ajan görüntüdeki hatayı açıklayabilir ve aynı konuşmada sesli olarak yönlendirmeye devam edebilir.
| Özellik | Değer |
|---|---|
| Model Kimliği | gpt-realtime-2 |
| Bağlam penceresi | 128.000 token |
| Maksimum çıktı | 32.000 token |
| Modaliteler, giriş | metin, ses, görüntü |
| Modaliteler, çıktı | metin, ses |
| Bilgi kesme tarihi | 2024-09-30 |
| Muhakeme seviyeleri | minimal, low, medium, high, xhigh |
| Fonksiyon çağrısı | evet |
| Uzak MCP sunucuları | evet |
| Görüntü girişi | evet |
| SIP telefon araması | evet |
gpt-realtime'a göre ne değişti?
GPT-Realtime-2, gpt-realtime-1.5'e göre ölçülebilir kalite artışı getiriyor:
- Big Bench Audio, ses zekası: %81,4 → %96,6
- Audio MultiChallenge, talimat takibi: %34,7 → %48,5
Bu sonuçlar high ve xhigh muhakeme seviyelerinde elde edildi. Üretimde gecikmeyi düşük tutmak için varsayılan seviye low'dur.
Yeni davranışlar özellikle sesli ajanlarda işe yarar:
- Kısa giriş ifadeleri: Model, cevap üretmeden önce “kontrol edeyim” gibi kısa ifadeler kullanabilir. Bu, muhakeme gecikmesini kullanıcı açısından daha doğal hale getirir.
- Paralel araç çağrıları: Birden fazla fonksiyonu aynı anda çağırabilir ve bu sırada kullanıcıya ilerlemeyi sesli anlatabilir.
- Daha iyi hata toparlama: Belirsiz veya kısmen başarısız dönüşlerde konuşmayı baştan başlatmak yerine akış içinde toparlanabilir.
- Ton kontrolü: Oturum boyunca terminolojiyi ve konuşma tonunu daha tutarlı koruyabilir.
Bağlam penceresinin 32k'dan 128k token'a çıkması, uzun destek görüşmeleri, bankacılık senaryoları ve özel ders gibi uzun oturumlarda daha az bağlam kaybı anlamına gelir.
Fiyatlandırma
GPT-Realtime-2 token başına faturalandırılır. Metin, ses ve görüntü girişleri için ayrı oranlar uygulanır.
| Token türü | Giriş | Önbelleğe alınmış giriş | Çıktı |
|---|---|---|---|
| Metin | 4,00$ / 1M | 0,40$ / 1M | 24,00$ / 1M |
| Ses | 32,00$ / 1M | 0,40$ / 1M | 64,00$ / 1M |
| Görüntü | 5,00$ / 1M | 0,50$ / 1M | uyg. değil |
Önbelleğe alınmış giriş, tekrarlanan bağlamlarda maliyeti önemli ölçüde düşürür. Sabit bir sistem istemi, tekrar kullanılan belge veya kalıcı ajan talimatları kullanıyorsanız cache'i sıcak tutmak önemlidir.
OpenAI serisinin geri kalanıyla karşılaştırmak için GPT-5.5 fiyatlandırması yazısına bakabilirsiniz.
Yardımcı modeller dakika bazında fiyatlandırılır:
- GPT-Realtime-Translate: Dakika başına 0,034$. 70 giriş dili ve 13 çıkış dili destekler.
- GPT-Realtime-Whisper: Dakika başına 0,017$. Canlı altyazı ve sürekli transkripsiyon için akışlı konuşmadan-metne modelidir.
Kısa seçim rehberi:
- Sesli ajan + muhakeme + araç çağrısı gerekiyorsa: GPT-Realtime-2
- Canlı çok dilli yorumlama gerekiyorsa: GPT-Realtime-Translate
- Sadece transkript gerekiyorsa: GPT-Realtime-Whisper
Uç Noktalar ve Kimlik Doğrulama
GPT-Realtime-2 birkaç farklı API yüzeyinden erişilebilir:
POST https://api.openai.com/v1/chat/completions
POST https://api.openai.com/v1/responses
WSS wss://api.openai.com/v1/realtime?model=gpt-realtime-2
WSS wss://api.openai.com/v1/realtime?call_id={call_id} # SIP için
POST https://api.openai.com/v1/realtime/translations
POST https://api.openai.com/v1/realtime/transcription_sessions
Sesli ajan kuruyorsanız ana uç nokta WebSocket'tir:
wss://api.openai.com/v1/realtime?model=gpt-realtime-2
Gerekli başlıklar:
Authorization: Bearer $OPENAI_API_KEY
OpenAI-Beta: realtime=v1
Ortam değişkenini ayarlayın:
export OPENAI_API_KEY="sk-proj-..."
WebSocket Üzerinden Bağlanma
Minimal Node.js istemcisi:
import WebSocket from "ws";
const ws = new WebSocket(
"wss://api.openai.com/v1/realtime?model=gpt-realtime-2",
{
headers: {
Authorization: `Bearer ${process.env.OPENAI_API_KEY}`,
"OpenAI-Beta": "realtime=v1",
},
}
);
ws.on("open", () => {
ws.send(JSON.stringify({
type: "session.update",
session: {
voice: "cedar",
instructions: "You are a friendly support agent for a fintech app.",
input_audio_format: "pcm16",
output_audio_format: "pcm16",
turn_detection: { type: "server_vad" },
reasoning: { effort: "low" },
},
}));
});
ws.on("message", (raw) => {
const event = JSON.parse(raw.toString());
if (event.type === "response.audio.delta") {
// Base64 PCM16 ses öbeği.
// Bunu hoparlöre, tarayıcıya veya ses işleme katmanına aktarın.
process.stdout.write(Buffer.from(event.delta, "base64"));
}
});
Temel akış şöyledir:
- WebSocket bağlantısını açın.
-
session.updateile oturumu yapılandırın. - Kullanıcı sesi geldikçe
input_audio_buffer.appendolayları gönderin. - Modelin ses çıktısını
response.audio.deltaolaylarından okuyun. - Gerekirse
response.createile modelden cevap üretmesini isteyin.
PCM16, 24 kHz için güvenli varsayılandır. Telefon sistemleriyle çalışıyorsanız G.711 mu-law ve A-law desteği de önemlidir.
Python tarafında openai SDK >= 2.1.0, benzer olay adlarını kullanan bir realtime istemcisi sunar. Realtime yüzeyini Responses API ile karşılaştırmak isterseniz GPT-5.5 API'si Nasıl Kullanılır yazısına bakabilirsiniz.
Sesler
Bu sürümle iki yeni ses gelir:
- Cedar: sıcak, orta frekanslı erkek sesi. Genel amaçlı ajanlar için iyi varsayılan.
- Marin: parlak, net kadın sesi. Çeviri ve duyuru senaryolarında kullanışlı.
Realtime API'de kullanılabilen önceki sesler de devam eder:
alloyashballadcoralechosageshimmerverse
Oturum sırasında sesi değiştirmek için yeni voice değeriyle tekrar session.update gönderebilirsiniz:
ws.send(JSON.stringify({
type: "session.update",
session: {
voice: "marin",
},
}));
Görüntü Girişi
Bir kullanıcı dönüşüne görüntü ekleyebilirsiniz. Bu, sesli destek ajanlarında özellikle kullanışlıdır: kullanıcı ekran görüntüsü gönderir, ajan hatayı açıklar ve sesli olarak devam eder.
Örnek:
ws.send(JSON.stringify({
type: "conversation.item.create",
item: {
type: "message",
role: "user",
content: [
{
type: "input_image",
image_url: "https://example.com/screenshot.png"
},
{
type: "input_text",
text: "What does this error mean?"
},
],
},
}));
ws.send(JSON.stringify({ type: "response.create" }));
Yaygın kullanım kalıpları:
- Sesli QA: Test kullanıcısı bozuk bir arayüzü gösterir; ajan gördüğünü anlatır ve hata raporu oluşturur.
- Saha desteği: Teknisyen kablo paneli fotoğrafı paylaşır; ajan adım adım teşhis yönlendirmesi yapar.
- Erişilebilirlik: Kullanıcının ekranı destek çağrısı sırasında sesli olarak açıklanır.
OpenAI'nin görüntü yığını için GPT-Image-2 API'si Nasıl Kullanılır yazısına bakabilirsiniz.
Fonksiyon Çağrısı ve MCP
GPT-Realtime-2 aynı oturumda hem standart fonksiyon araçlarını hem de uzak MCP sunucularını destekler.
Standart fonksiyon çağrısı akışı:
-
session.updateiçinde araçları tanımlayın. - Model
response.function_call_arguments.deltaolayları üretir. - Uygulamanız fonksiyonu çalıştırır.
- Sonucu
conversation.item.createilefunction_call_outputolarak geri gönderirsiniz. - Model kullanıcıya sesli yanıt üretir.
Paralel çağrılar bu sürümde daha önemlidir. Model aynı anda birkaç fonksiyonu çağırabilir ve “bakiyenizi ve son üç işleminizi kontrol ediyorum” gibi ara sesli bildirimler yapabilir.
Uzak MCP sunucusu ekleme örneği:
ws.send(JSON.stringify({
type: "session.update",
session: {
tools: [{
type: "mcp",
server_url: "https://mcp.example.com/sse",
allowed_tools: [
"lookup_account",
"list_transactions"
],
}],
},
}));
MCP kullanırken Realtime API, izin verilen araçlara MCP sunucusu üzerinden erişir. Bu, özellikle çok sayıda araca sahip sesli ajanlarda uygulama tarafındaki olay döngüsünü basitleştirir.
MCP sunucularını sesli ajana bağlamadan önce test etmek istiyorsanız Apidog'daki MCP sunucu testi rehberine bakabilirsiniz.
SIP Telefon Araması
GPT-Realtime-2 gerçek telefon aramalarını da alabilir. Kurulum modeli:
- SIP trunk'ınızı OpenAI'nin SIP ağ geçidine yönlendirin.
- Gelen çağrı için
call_idoluşur. - Uygulamanız şu WebSocket oturumuna bağlanır:
wss://api.openai.com/v1/realtime?call_id={call_id}
Model G.711 mu-law ve A-law formatlarını doğrudan kabul eder. Bu nedenle telefon köprünüzde yeniden kodlama yapmanız gerekmez.
Bu özellik çağrı merkezi senaryolarında önemlidir. Telefon ajanları genellikle araç çağrısı yoğun çalışır: hesap sorgulama, işlem listeleme, talep oluşturma, kimlik doğrulama gibi akışlar MCP ve paralel fonksiyon çağrılarıyla doğal biçimde eşleşir.
Muhakeme Seviyeleri
Muhakeme seviyesi, gecikme ve cevap kalitesi arasındaki ana ayardır.
| Seviye | Kullanım durumu | Yaklaşık gecikme maliyeti |
|---|---|---|
minimal |
Tek seferlik evet/hayır cevapları | yok |
low |
Varsayılan; günlük destek ve sohbet | küçük |
medium |
Belirsizlik giderme, karmaşık araç seçimi | orta |
high |
Çok adımlı muhakeme, sesli kod incelemesi | yüksek |
xhigh |
Kıyaslamalar, zor analitik sorular | en yüksek |
Varsayılan low'dur. Üretimde önerilen yaklaşım:
-
lowile başlayın. - Cevap kalitesini ve gecikmeyi ölçün.
- Sadece kalite farkı kanıtlanıyorsa
mediumveya üstüne çıkın. - Telefon aramalarında
highvexhighseviyelerinin gecikmesini özellikle test edin.
Örnek yapılandırma:
ws.send(JSON.stringify({
type: "session.update",
session: {
reasoning: {
effort: "low"
}
}
}));
Apidog'da Realtime API'yi Test Etme
WebSocket API'lerini terminalden hata ayıklamak zordur çünkü konuşma durumludur. Her oturumda ses çerçeveleri, araç çağrıları, yanıt olayları ve ara durumlar oluşur.
Apidog ile şunları yapabilirsiniz:
- WebSocket URL'sini ve
OpenAI-Betabaşlığını kaydedin. -
session.update,input_audio_buffer.append,response.creategibi JSON mesajlarını betik olarak hazırlayın. - Aynı bağlantı üzerinde bu mesajları tekrar oynatın.
- Sunucudan gelen olayları ağaç yapısında yakalayın.
- İki çalıştırmayı yan yana karşılaştırın.
- Muhakeme seviyesini, sesi veya araç listesini değiştirip çıktı farkını ölçün.
Başlamak için:
- Apidog'u indirin.
- Yeni bir WebSocket isteği oluşturun.
- URL olarak şunu girin:
wss://api.openai.com/v1/realtime?model=gpt-realtime-2
- Auth bölümüne Bearer token ekleyin.
- Header olarak şunu ekleyin:
OpenAI-Beta: realtime=v1
- İlk mesaj olarak
session.updategönderin. - Sonraki mesajlarda ses çerçevelerini ve
response.createolaylarını test edin.
Koleksiyon yapısını HTTP isteklerinde olduğu gibi düzenleyebilirsiniz:
-
OPENAI_API_KEYiçin ortam değişkeni -
voiceiçin koleksiyon değişkeni - Her bağlantıda çalışan başlangıç betikleri
- Farklı muhakeme seviyeleri için ayrı senaryolar
Başka bir hızlı çok modlu modelle karşılaştırmak isterseniz Gemini 3 Flash Önizleme API'si Nasıl Kullanılır yazısına bakabilirsiniz.
SSS
Hangi model kimliğini kullanmalıyım?
gpt-realtime-2. Geri dönmeniz gerekirse önceki model gpt-realtime olarak mevcuttur. Lite sürüm için gpt-realtime-2-mini de yayındadır.
Çıkış sesi çalarken giriş sesini akışla gönderebilir miyim?
Evet. Realtime API varsayılan olarak sunucu tarafı ses aktivite tespiti, yani VAD, kullanır. Kullanıcı konuşmaya başladığında model konuşmayı kesebilir. İsterseniz VAD'ı devre dışı bırakıp dönüş sınırlarını istemciden kontrol edebilirsiniz.
128k bağlam ses token'larını da içeriyor mu?
Evet. Ses de token'lara ayrılır. Bir saniyelik ses, formata bağlı olarak yaklaşık 50 token'dır. Uzun destek aramaları, uzun metin sohbetlerinden daha hızlı bağlam tüketebilir; bu yüzden üretimde token kullanımını ölçmeniz gerekir.
İnce ayar destekleniyor mu?
Henüz değil. Model kartına göre GPT-Realtime-2 şu anda ince ayarı, tahmin edilen çıktıları veya Chat Completions'da metin akışını desteklemiyor. Realtime uç noktası doğal olarak ses akışı sağlar.
Bu, TTS eklenmiş GPT-5.5 ile nasıl karşılaştırılır?
TTS eklenmiş metin modeli, uçtan uca konuşma muhakemesi sağlamaz. Ses farkındalığı olan bir model ton, tereddüt ve vurguyu algılayabilir. Kullanıcının yalnızca ne söylediğine değil, nasıl söylediğine de tepki vermesi gereken ajanlarda GPT-Realtime-2 daha uygun araçtır. Saf metin muhakemesi için GPT-5.5 API'si Nasıl Kullanılır yazısına bakabilirsiniz.
Hangi hız sınırları geçerlidir?
Kademe 1, dakikada 40.000 token ile başlar ve Kademe 5'te 15M TPM'ye kadar ölçeklenir. Hız sınırları model başınadır; mevcut GPT-5 kotası otomatik olarak devredilmez.
Özet
GPT-Realtime-2, sesli ajanlar ile metin ajanları arasındaki farkı azaltır. 128k bağlam, GPT-5 sınıfı muhakeme, görüntü girişi, yerel MCP ve SIP desteği; telefon çağrısı yanıtlayan, ekran görüntüsü yorumlayan, uzak araç çağıran ve konuşma içinde hatadan toparlanan tek bir ajan kurmayı mümkün kılar.
Üretime en hızlı yol:
- WebSocket oturumunu Apidog'da betikleyin.
- Sabit bir araç listesi tanımlayın.
-
lowmuhakeme seviyesiyle başlayın. - Ses, gecikme ve token kullanımını ölçün.
- Sadece ölçülebilir kalite farkı varsa muhakeme seviyesini artırın.



Top comments (0)