xAI, Grok 4.3 ile Grok Voice'u geliştiricilere açtı. Temel nokta şu: xAI Konsolu üzerinden ses özelliklerini test etmek ücretsizdir; TTS, STT, gerçek zamanlı sesli ajan ve Özel Sesler için dakika başına ya da token başına ayrı ücret yoktur. Faturalandırmaya konu olan kısım, sesli ajanın yanıt üretirken kullandığı Grok 4.3 akıl yürütme token’larıdır; bunlar için de konsolda prototiplemeye yetecek ücretsiz tahsis bulunur.
Bu rehberde Grok Voice’u sıfır maliyetle nasıl başlatacağınızı, özel ses klonu nasıl oluşturacağınızı, WebSocket oturumunun nasıl çalıştığını ve entegrasyondan önce tüm akışı Apidog ile nasıl test edeceğinizi adım adım göreceksiniz.
Daha geniş API yüzeyi için Grok 4.3 API kılavuzuna, OpenAI yığınıyla karşılaştırma için ise Grok Voice vs GPT-Realtime yazısına bakabilirsiniz.
Kısaca
- Grok Voice, xAI Konsolu (
console.x.ai) kullanıcıları için ücretsizdir. - TTS, STT, sesli ajan ve Özel Sesler için dakika veya token başına ücret yoktur.
- Ana gerçek zamanlı model:
grok-voice-think-fast-1.0. - İlk ses çıkış süresi 1 saniyenin altında; xAI, en yakın rakibinden yaklaşık 5 kat daha hızlı olduğunu iddia ediyor.
- 28 dilde 80’den fazla önceden ayarlanmış ses vardır.
- Sesli ajan için 5 dahili kişilik bulunur: Eve, Ara, Rex, Sal, Leo.
- Yaklaşık 1 dakikalık konuşma ile özel ses klonu oluşturulabilir.
- Özel ses, 2 dakikanın altında üretime hazır
voice_idolarak döner. - WebSocket uç noktası:
wss://api.x.ai/v1/realtime?model=grok-voice-think-fast-1.0
- TTS, STT ve Özel Sesler REST uç noktaları aynı API yüzeyi altında çalışır.
- WebSocket oturumlarını betiklemek ve ses yanıtlarını tekrar test etmek için Apidog kullanabilirsiniz.
Grok Voice ücretsiz olarak ne sağlar?
xAI Konsolu üzerinden giriş yaptığınızda dört ana ses yüzeyine erişirsiniz:
1. Sesli ajan
Gerçek zamanlı konuşmadan konuşmaya akış sağlar. Araç kullanımı, sunucu tarafı ses aktivite tespiti ve sıra alma özellikleri oturum içinde yapılandırılır.
2. Metin-Konuşma
28 dilde 80’den fazla önceden ayarlanmış sesi destekler. Çıktıyı MP3 veya telefon sistemleri için μ-law formatında alabilirsiniz.
3. Konuşma-Metin
25 giriş dilinde akış veya toplu transkripsiyon yapabilir. Kelime düzeyinde zaman damgaları ve konuşmacı ayrımı desteklenir.
4. Özel Sesler
Kısa bir örnek sesten klon oluşturur. Dönen voice_id, hem TTS hem de gerçek zamanlı sesli ajan API’lerinde kullanılabilir.
Dikkat edilmesi gereken tek sayaç, ajanın yanıt üretirken kullandığı Grok 4.3 akıl yürütme token’larıdır. Konsoldaki ücretsiz kredi, uçtan uca prototipleri doğrulamak için yeterlidir.
Adım 1: xAI Konsolu’ndan API anahtarı alın
Önce console.x.ai adresine gidin ve X hesabınızla oturum açın.
Ardından:
- API Keys sayfasını açın.
- Yeni bir anahtar oluşturun.
-
voicevechatkapsamlarını etkinleştirin. - Anahtarı güvenli bir yerde saklayın.
- Yerel geliştirme ortamınızda değişken olarak tanımlayın:
export XAI_API_KEY="xai-..."
İstemci tarafı bir uygulama geliştiriyorsanız ana anahtarı tarayıcıya göndermeyin. Bunun yerine sunucu tarafında kısa ömürlü geçici token üretin.
Geçici token için iki seçenek vardır:
- Konsol ayarları
-
/v1/realtime/sessionsuç noktası
Bu token’lar aynı kapsamı taşır ancak kısa sürede sona erer. Böylece WebSocket’i tarayıcıdan açabilir, ana API anahtarınızı sunucuda tutabilirsiniz.
Adım 2: Kullanılacak sesi seçin
Grok Voice’ta iki seçenek vardır: hazır sesler veya özel ses klonu.
Hazır sesler
Sesli ajan tarafında beş adlandırılmış kişilik bulunur:
| Ses | Karakter | Kullanım önerisi |
|---|---|---|
| Eve | Kadın, enerjik | Destek ve karşılama akışları |
| Ara | Kadın, sıcak | Genel asistan deneyimi |
| Rex | Erkek, kendinden emin | Satış ve yönlendirme senaryoları |
| Sal | Nötr, pürüzsüz | Anlatım ve uzun metinler |
| Leo | Erkek, otoriter | Resmi veya uyumluluk odaklı akışlar |
Daha geniş TTS API tarafında ise 28 dilde 80’den fazla ses bulunur. REST çağrısında voice parametresiyle seçebilirsiniz.
Özel ses klonu oluşturma
Tek konuşmacıdan alınmış temiz bir WAV dosyası kullanın. Yaklaşık 60 saniyelik net konuşma yeterlidir.
Örnek istek:
curl https://api.x.ai/v1/custom-voices \
-H "Authorization: Bearer $XAI_API_KEY" \
-F "name=narrator-jane" \
-F "language=en" \
-F "audio=@sample.wav"
Yanıt içinde bir voice_id alırsınız. Bu ID’yi TTS ve sesli ajan çağrılarında kullanabilirsiniz.
Kayıt için pratik öneriler:
- Sessiz bir oda kullanın.
- Tek konuşmacı olsun.
- Arka plan müziği veya ortam sesi olmasın.
- Tek çekimde tutarlı tonla okuyun.
- Maksimum referans klibi 120 saniyedir; daha uzun kayıt her zaman daha iyi sonuç vermez.
Adım 3: WebSocket ile sesli ajanı başlatın
Gerçek zamanlı sesli ajan tek bir WebSocket oturumu üzerinden çalışır:
- WebSocket bağlantısını açın.
- Oturumu
session.updateile yapılandırın. - Kullanıcı sesini
input_audio_buffer.appendolaylarıyla gönderin. - Model yanıt sesini
response.audio.deltaolaylarından alın. - Sıra tamamlandığında
response.audio.doneolayını dinleyin.
Minimal Node.js istemcisi:
import WebSocket from "ws";
const ws = new WebSocket(
"wss://api.x.ai/v1/realtime?model=grok-voice-think-fast-1.0",
{
headers: {
Authorization: `Bearer ${process.env.XAI_API_KEY}`,
},
}
);
ws.on("open", () => {
ws.send(JSON.stringify({
type: "session.update",
session: {
voice: "ara",
instructions: "You are a friendly support agent. Keep replies under two sentences.",
input_audio_format: "pcm16",
output_audio_format: "pcm16",
turn_detection: {
type: "server_vad",
},
},
}));
});
ws.on("message", (raw) => {
const event = JSON.parse(raw.toString());
if (event.type === "response.audio.delta") {
process.stdout.write(Buffer.from(event.delta, "base64"));
}
if (event.type === "response.audio.done") {
console.log("\nYanıt tamamlandı.");
}
});
Kullanıcı sesini göndermek için PCM16 ses çerçevelerini base64’e çevirip şu olayla iletin:
{
"type": "input_audio_buffer.append",
"audio": "BASE64_PCM16_AUDIO_CHUNK"
}
Tarayıcı ve masaüstü uygulamaları için 24 kHz PCM16 güvenli varsayılandır. Telefon sistemlerine köprü kuruyorsanız μ-law formatını kullanın.
Adım 4: Fonksiyon çağırma ile araç kullanımı ekleyin
Sesli ajan, konuşma sırasında fonksiyon çağırabilir. Bu sayede kullanıcı doğal dille konuşurken model sizin API’lerinize erişebilir.
Örneğin sipariş durumu sorgulayan bir araç tanımlayın:
ws.send(JSON.stringify({
type: "session.update",
session: {
tools: [
{
type: "function",
name: "lookup_order",
description: "Look up the status of a customer order by order number.",
parameters: {
type: "object",
properties: {
order_id: {
type: "string",
},
},
required: ["order_id"],
},
},
],
},
}));
Model aracı çağırmak istediğinde response.function_call_arguments.done olayı üretir.
Uygulama tarafındaki akış şöyle olmalıdır:
- Olaydan fonksiyon adını ve argümanları okuyun.
- Kendi sisteminizde ilgili API’yi çağırın.
- Sonucu
function_call_outputolarak geri gönderin. - Model konuşmaya devam eder ve sonucu kullanıcıya sesli olarak aktarır.
Örnek çıktı gönderimi:
ws.send(JSON.stringify({
type: "conversation.item.create",
item: {
type: "function_call_output",
call_id: "CALL_ID_FROM_MODEL",
output: JSON.stringify({
status: "shipped",
estimated_delivery: "2026-05-12",
}),
},
}));
Dahili web_search aracı varsayılan olarak gelir. Kendi arama veya alma katmanınızı yazmadan güncel verilere dayalı cevaplar üretmek için kullanılabilir.
Adım 5: Sadece TTS gerekiyorsa REST kullanın
Sesli ajan gerekmiyorsa WebSocket açmanıza gerek yoktur. Uygulama seslendirmesi, bildirimler, onboarding mesajları veya podcast girişleri için REST TTS uç noktasını çağırabilirsiniz.
curl https://api.x.ai/v1/tts \
-H "Authorization: Bearer $XAI_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"model": "grok-tts-1",
"voice": "ara",
"input": "Welcome back to your account. Your last login was Tuesday at 3pm.",
"format": "mp3"
}' \
--output greeting.mp3
Desteklenen çıktı formatları:
-
mp3: yüksek kaliteli genel kullanım -
mulaw: 8 kHz telefon sistemleri için
Bu uç nokta senkron çalışır. İstek gönderirsiniz, ses dosyasını doğrudan alırsınız.
Adım 6: Akışı Apidog’da test edin
WebSocket tabanlı konuşma API’lerini terminalden test etmek zordur çünkü oturum durum tabanlıdır. Her mesajın sırası önemlidir ve ses çerçevelerini tekrar üretmek zahmetlidir.
Apidog ile daha tekrarlanabilir bir test akışı kurabilirsiniz:
Önerilen test düzeni:
- WebSocket URL’sini kaydedin:
wss://api.x.ai/v1/realtime?model=grok-voice-think-fast-1.0
-
Authorizationbaşlığını ortam değişkeninden alın:
Bearer {{XAI_API_KEY}}
- Aşağıdaki mesajları sırayla betikleyin:
{
"type": "session.update",
"session": {
"voice": "ara",
"instructions": "You are a concise support agent.",
"input_audio_format": "pcm16",
"output_audio_format": "pcm16",
"turn_detection": {
"type": "server_vad"
}
}
}
{
"type": "input_audio_buffer.append",
"audio": "BASE64_PCM16_AUDIO_CHUNK"
}
{
"type": "response.create"
}
- Sunucudan gelen olayları ağaç görünümünde inceleyin.
-
response.audio.deltaolaylarını yakalayın. - Ses, talimat veya araç yapılandırmasını değiştirip iki çalışmayı karşılaştırın.
Apidog’u indirin, yeni bir WebSocket isteği oluşturun ve XAI_API_KEY değerini ortam değişkenlerine ekleyin.
Aynı proje içinde şunları da tutabilirsiniz:
- Gerçek zamanlı WebSocket oturumu
- TTS REST çağrıları
- STT REST çağrıları
- Özel ses oluşturma istekleri
- Araç çağrısı test senaryoları
Durum tabanlı API test desenleri için QA mühendisleri için API test aracı yazısına da bakabilirsiniz.
Ücretsiz katman limitleri
Konsol, ses özelliklerinin kendisi için dakika veya token başına ücret olmadan erişim sağlar. Yine de bazı pratik sınırlar vardır.
Hız limitleri
Konsol, kötüye kullanımı önlemek için uç nokta bazlı dakika başına istek sınırları uygular. Bu sınırlar geliştirme ve demo için uygundur; üretim garantisi olarak düşünülmemelidir.
Özel ses kotası
Tek hesapta aynı anda tutulabilecek özel ses klonu sayısı sınırlıdır. Yer açmak için eski klonları silebilir ve yeniden oluşturabilirsiniz.
Akıl yürütme token’ları
Sesli ajan arka planda Grok 4.3 ile düşündüğünde konsol kredinizden kullanır. Ücretsiz kredi prototipleme için yeterlidir; üretim için ücretli plan gerekir.
Hız limiti hataları alırsanız:
- İstekleri toplu hale getirin.
- Testleri sıraya koyun.
- Gerekiyorsa ücretli katmana geçin.
API davranışı değişmez; yalnızca limitler değişir.
Yayına almadan önce sesleri karşılaştırın
Üretime geçmeden önce aynı metni her sesle test edin. Farklı sesler aynı cümleyi farklı tonla okuyabilir.
Kısa bir test seti yeterlidir:
- İki cümlelik karşılama
- Onay cümlesi: “Anlaşıldı, hepsi hazır.”
- Sayı, tarih ve virgül içeren uzun cümle
- Kullanıcının sözünü kesmeden bekleme gerektiren bir destek yanıtı
- Hata veya başarısız işlem mesajı
Dahili olarak kullanılabilecek basit test:
- Aynı komutu sakin tonda söyleyin.
- Aynı komutu normal tonda söyleyin.
- Aynı komutu acil tonda söyleyin.
- Modelin tonlama değişimini dinleyin.
- Yanıtın doğal olup olmadığını kontrol edin.
Grok’un hazır sesleri, kıyaslanan birçok TTS motorundan daha iyi tonlama verebilir; yine de yayına almadan önce her kullanım senaryosunu dinleyerek doğrulamak gerekir.
Sıkça Sorulan Sorular
API gerçekten ücretsiz mi?
Ses özellikleri — TTS, STT, sesli ajan ve Özel Sesler — konsolda dakika veya token başına ücret taşımaz. Ancak arka plandaki Grok 4.3 akıl yürütme modeli konsol kredinizden kullanır. Konsol tahsisi prototipleme için yeterlidir.
X hesabı gerekiyor mu?
Evet. xAI Konsolu’na giriş için X hesabı gerekir.
Grok Voice tarayıcıdan kullanılabilir mi?
Evet. Ana API anahtarını tarayıcıya göndermeden geçici token kullanmanız gerekir. Sunucu tarafında /v1/realtime/sessions üzerinden kısa ömürlü token üretin, ardından tarayıcı WebSocket bağlantısını bu token ile açsın.
Hangi ses kalitesini beklemeliyim?
TTS çıktısı yüksek kaliteli MP3 veya 8 kHz μ-law olabilir. Sesli ajan tarafında PCM16 kullanılır. Kalite büyük ticari TTS motorlarıyla aynı sınıfta değerlendirilebilir; öne çıkan fark gecikmedir.
Telefon sistemleriyle çalışır mı?
Evet. μ-law çıktısı SIP ve PSTN köprüleri için standart formattır. Yine de ayrıca bir SIP sağlayıcısına ihtiyacınız vardır; xAI bugün kendi SIP ağ geçidini sağlamaz.
Ses klonlama kalitesi neye bağlıdır?
Klonlama kalitesi, kayıt uzunluğundan çok referans sesin temizliğine bağlıdır. Sessiz odada alınmış temiz 60 saniyelik kayıt, gürültülü 120 saniyelik kayıttan daha iyi sonuç verebilir.
Dönen voice_id, yeniden klonlama yapmadan TTS ve sesli ajan API’lerinde kullanılabilir.
Oyun içi yapay zeka karakterleri için kullanılabilir mi?
Evet. TTS uç noktası çalışma zamanı üretimi için yeterince hızlıdır ve Özel Sesler ile her karakter için ayrı ses oluşturabilirsiniz. Uzun repliklerde gecikmeyi izleyin; gerekiyorsa metni parçalara bölerek TTS üretin.
Özet
Grok Voice, gerçek zamanlı sesli ajan geliştirmek için düşük sürtünmeli bir başlangıç noktası sunar. Konsolda ses özellikleri için dakika başına ücret yoktur, WebSocket API doğrudan kullanılabilir ve Özel Sesler ile kısa bir referans kayıttan kendi voice_id değerinizi oluşturabilirsiniz.
Pratik başlangıç akışı:
- xAI Konsolu’ndan API anahtarı alın.
- Hazır bir ses seçin veya özel ses klonu oluşturun.
- WebSocket oturumunu
session.updateile yapılandırın. - PCM16 ses çerçevelerini gönderin.
-
response.audio.deltaolaylarından yanıtı alın. - Aynı akışı Apidog’da kaydedip tekrar çalıştırın.
Grok 4.3 akıl yürütmesine geçmek için Grok 4.3 API kılavuzuna, OpenAI yığınıyla karşılaştırma için Grok Voice vs GPT-Realtime yazısına bakabilirsiniz.


Top comments (0)