Tobias Hoffmann

Posted on May 8 • Originally published at apidog.com

Grok Seslendirme Ücretsiz Kullanımı: Konsol Kurulumu, Ses Klonlama ve Gerçek Zamanlı Ses Ajanları

xAI, Grok 4.3 ile Grok Voice'u geliştiricilere açtı. Temel nokta şu: xAI Konsolu üzerinden ses özelliklerini test etmek ücretsizdir; TTS, STT, gerçek zamanlı sesli ajan ve Özel Sesler için dakika başına ya da token başına ayrı ücret yoktur. Faturalandırmaya konu olan kısım, sesli ajanın yanıt üretirken kullandığı Grok 4.3 akıl yürütme token’larıdır; bunlar için de konsolda prototiplemeye yetecek ücretsiz tahsis bulunur.

Apidog'u bugün deneyin

Bu rehberde Grok Voice’u sıfır maliyetle nasıl başlatacağınızı, özel ses klonu nasıl oluşturacağınızı, WebSocket oturumunun nasıl çalıştığını ve entegrasyondan önce tüm akışı Apidog ile nasıl test edeceğinizi adım adım göreceksiniz.

Daha geniş API yüzeyi için Grok 4.3 API kılavuzuna, OpenAI yığınıyla karşılaştırma için ise Grok Voice vs GPT-Realtime yazısına bakabilirsiniz.

Kısaca

Grok Voice, xAI Konsolu (console.x.ai) kullanıcıları için ücretsizdir.
TTS, STT, sesli ajan ve Özel Sesler için dakika veya token başına ücret yoktur.
Ana gerçek zamanlı model: grok-voice-think-fast-1.0.
İlk ses çıkış süresi 1 saniyenin altında; xAI, en yakın rakibinden yaklaşık 5 kat daha hızlı olduğunu iddia ediyor.
28 dilde 80’den fazla önceden ayarlanmış ses vardır.
Sesli ajan için 5 dahili kişilik bulunur: Eve, Ara, Rex, Sal, Leo.
Yaklaşık 1 dakikalık konuşma ile özel ses klonu oluşturulabilir.
Özel ses, 2 dakikanın altında üretime hazır voice_id olarak döner.
WebSocket uç noktası:

wss://api.x.ai/v1/realtime?model=grok-voice-think-fast-1.0

TTS, STT ve Özel Sesler REST uç noktaları aynı API yüzeyi altında çalışır.
WebSocket oturumlarını betiklemek ve ses yanıtlarını tekrar test etmek için Apidog kullanabilirsiniz.

Grok Voice ücretsiz olarak ne sağlar?

xAI Konsolu üzerinden giriş yaptığınızda dört ana ses yüzeyine erişirsiniz:

1. Sesli ajan

Gerçek zamanlı konuşmadan konuşmaya akış sağlar. Araç kullanımı, sunucu tarafı ses aktivite tespiti ve sıra alma özellikleri oturum içinde yapılandırılır.

2. Metin-Konuşma

28 dilde 80’den fazla önceden ayarlanmış sesi destekler. Çıktıyı MP3 veya telefon sistemleri için μ-law formatında alabilirsiniz.

3. Konuşma-Metin

25 giriş dilinde akış veya toplu transkripsiyon yapabilir. Kelime düzeyinde zaman damgaları ve konuşmacı ayrımı desteklenir.

4. Özel Sesler

Kısa bir örnek sesten klon oluşturur. Dönen voice_id, hem TTS hem de gerçek zamanlı sesli ajan API’lerinde kullanılabilir.

Dikkat edilmesi gereken tek sayaç, ajanın yanıt üretirken kullandığı Grok 4.3 akıl yürütme token’larıdır. Konsoldaki ücretsiz kredi, uçtan uca prototipleri doğrulamak için yeterlidir.

Adım 1: xAI Konsolu’ndan API anahtarı alın

Önce console.x.ai adresine gidin ve X hesabınızla oturum açın.

Ardından:

API Keys sayfasını açın.
Yeni bir anahtar oluşturun.
voice ve chat kapsamlarını etkinleştirin.
Anahtarı güvenli bir yerde saklayın.
Yerel geliştirme ortamınızda değişken olarak tanımlayın:

export XAI_API_KEY="xai-..."

İstemci tarafı bir uygulama geliştiriyorsanız ana anahtarı tarayıcıya göndermeyin. Bunun yerine sunucu tarafında kısa ömürlü geçici token üretin.

Geçici token için iki seçenek vardır:

Konsol ayarları
/v1/realtime/sessions uç noktası

Bu token’lar aynı kapsamı taşır ancak kısa sürede sona erer. Böylece WebSocket’i tarayıcıdan açabilir, ana API anahtarınızı sunucuda tutabilirsiniz.

Adım 2: Kullanılacak sesi seçin

Grok Voice’ta iki seçenek vardır: hazır sesler veya özel ses klonu.

Hazır sesler

Sesli ajan tarafında beş adlandırılmış kişilik bulunur:

Ses	Karakter	Kullanım önerisi
Eve	Kadın, enerjik	Destek ve karşılama akışları
Ara	Kadın, sıcak	Genel asistan deneyimi
Rex	Erkek, kendinden emin	Satış ve yönlendirme senaryoları
Sal	Nötr, pürüzsüz	Anlatım ve uzun metinler
Leo	Erkek, otoriter	Resmi veya uyumluluk odaklı akışlar

Daha geniş TTS API tarafında ise 28 dilde 80’den fazla ses bulunur. REST çağrısında voice parametresiyle seçebilirsiniz.

Özel ses klonu oluşturma

Tek konuşmacıdan alınmış temiz bir WAV dosyası kullanın. Yaklaşık 60 saniyelik net konuşma yeterlidir.

Örnek istek:

curl https://api.x.ai/v1/custom-voices \
  -H "Authorization: Bearer $XAI_API_KEY" \
  -F "name=narrator-jane" \
  -F "language=en" \
  -F "audio=@sample.wav"

Yanıt içinde bir voice_id alırsınız. Bu ID’yi TTS ve sesli ajan çağrılarında kullanabilirsiniz.

Kayıt için pratik öneriler:

Sessiz bir oda kullanın.
Tek konuşmacı olsun.
Arka plan müziği veya ortam sesi olmasın.
Tek çekimde tutarlı tonla okuyun.
Maksimum referans klibi 120 saniyedir; daha uzun kayıt her zaman daha iyi sonuç vermez.

Adım 3: WebSocket ile sesli ajanı başlatın

Gerçek zamanlı sesli ajan tek bir WebSocket oturumu üzerinden çalışır:

WebSocket bağlantısını açın.
Oturumu session.update ile yapılandırın.
Kullanıcı sesini input_audio_buffer.append olaylarıyla gönderin.
Model yanıt sesini response.audio.delta olaylarından alın.
Sıra tamamlandığında response.audio.done olayını dinleyin.

Minimal Node.js istemcisi:

import WebSocket from "ws";

const ws = new WebSocket(
  "wss://api.x.ai/v1/realtime?model=grok-voice-think-fast-1.0",
  {
    headers: {
      Authorization: `Bearer ${process.env.XAI_API_KEY}`,
    },
  }
);

ws.on("open", () => {
  ws.send(JSON.stringify({
    type: "session.update",
    session: {
      voice: "ara",
      instructions: "You are a friendly support agent. Keep replies under two sentences.",
      input_audio_format: "pcm16",
      output_audio_format: "pcm16",
      turn_detection: {
        type: "server_vad",
      },
    },
  }));
});

ws.on("message", (raw) => {
  const event = JSON.parse(raw.toString());

  if (event.type === "response.audio.delta") {
    process.stdout.write(Buffer.from(event.delta, "base64"));
  }

  if (event.type === "response.audio.done") {
    console.log("\nYanıt tamamlandı.");
  }
});

Kullanıcı sesini göndermek için PCM16 ses çerçevelerini base64’e çevirip şu olayla iletin:

{
  "type": "input_audio_buffer.append",
  "audio": "BASE64_PCM16_AUDIO_CHUNK"
}

Tarayıcı ve masaüstü uygulamaları için 24 kHz PCM16 güvenli varsayılandır. Telefon sistemlerine köprü kuruyorsanız μ-law formatını kullanın.

Adım 4: Fonksiyon çağırma ile araç kullanımı ekleyin

Sesli ajan, konuşma sırasında fonksiyon çağırabilir. Bu sayede kullanıcı doğal dille konuşurken model sizin API’lerinize erişebilir.

Örneğin sipariş durumu sorgulayan bir araç tanımlayın:

ws.send(JSON.stringify({
  type: "session.update",
  session: {
    tools: [
      {
        type: "function",
        name: "lookup_order",
        description: "Look up the status of a customer order by order number.",
        parameters: {
          type: "object",
          properties: {
            order_id: {
              type: "string",
            },
          },
          required: ["order_id"],
        },
      },
    ],
  },
}));

Model aracı çağırmak istediğinde response.function_call_arguments.done olayı üretir.

Uygulama tarafındaki akış şöyle olmalıdır:

Olaydan fonksiyon adını ve argümanları okuyun.
Kendi sisteminizde ilgili API’yi çağırın.
Sonucu function_call_output olarak geri gönderin.
Model konuşmaya devam eder ve sonucu kullanıcıya sesli olarak aktarır.

Örnek çıktı gönderimi:

ws.send(JSON.stringify({
  type: "conversation.item.create",
  item: {
    type: "function_call_output",
    call_id: "CALL_ID_FROM_MODEL",
    output: JSON.stringify({
      status: "shipped",
      estimated_delivery: "2026-05-12",
    }),
  },
}));

Dahili web_search aracı varsayılan olarak gelir. Kendi arama veya alma katmanınızı yazmadan güncel verilere dayalı cevaplar üretmek için kullanılabilir.

Adım 5: Sadece TTS gerekiyorsa REST kullanın

Sesli ajan gerekmiyorsa WebSocket açmanıza gerek yoktur. Uygulama seslendirmesi, bildirimler, onboarding mesajları veya podcast girişleri için REST TTS uç noktasını çağırabilirsiniz.

curl https://api.x.ai/v1/tts \
  -H "Authorization: Bearer $XAI_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "grok-tts-1",
    "voice": "ara",
    "input": "Welcome back to your account. Your last login was Tuesday at 3pm.",
    "format": "mp3"
  }' \
  --output greeting.mp3

Desteklenen çıktı formatları:

mp3: yüksek kaliteli genel kullanım
mulaw: 8 kHz telefon sistemleri için

Bu uç nokta senkron çalışır. İstek gönderirsiniz, ses dosyasını doğrudan alırsınız.

Adım 6: Akışı Apidog’da test edin

WebSocket tabanlı konuşma API’lerini terminalden test etmek zordur çünkü oturum durum tabanlıdır. Her mesajın sırası önemlidir ve ses çerçevelerini tekrar üretmek zahmetlidir.

Apidog ile daha tekrarlanabilir bir test akışı kurabilirsiniz:

Önerilen test düzeni:

WebSocket URL’sini kaydedin:

wss://api.x.ai/v1/realtime?model=grok-voice-think-fast-1.0

Authorization başlığını ortam değişkeninden alın:

Bearer {{XAI_API_KEY}}

Aşağıdaki mesajları sırayla betikleyin:

{
  "type": "session.update",
  "session": {
    "voice": "ara",
    "instructions": "You are a concise support agent.",
    "input_audio_format": "pcm16",
    "output_audio_format": "pcm16",
    "turn_detection": {
      "type": "server_vad"
    }
  }
}

{
  "type": "input_audio_buffer.append",
  "audio": "BASE64_PCM16_AUDIO_CHUNK"
}

{
  "type": "response.create"
}

Sunucudan gelen olayları ağaç görünümünde inceleyin.
response.audio.delta olaylarını yakalayın.
Ses, talimat veya araç yapılandırmasını değiştirip iki çalışmayı karşılaştırın.

Apidog’u indirin, yeni bir WebSocket isteği oluşturun ve XAI_API_KEY değerini ortam değişkenlerine ekleyin.

Aynı proje içinde şunları da tutabilirsiniz:

Gerçek zamanlı WebSocket oturumu
TTS REST çağrıları
STT REST çağrıları
Özel ses oluşturma istekleri
Araç çağrısı test senaryoları

Durum tabanlı API test desenleri için QA mühendisleri için API test aracı yazısına da bakabilirsiniz.

Ücretsiz katman limitleri

Konsol, ses özelliklerinin kendisi için dakika veya token başına ücret olmadan erişim sağlar. Yine de bazı pratik sınırlar vardır.

Hız limitleri

Konsol, kötüye kullanımı önlemek için uç nokta bazlı dakika başına istek sınırları uygular. Bu sınırlar geliştirme ve demo için uygundur; üretim garantisi olarak düşünülmemelidir.

Özel ses kotası

Tek hesapta aynı anda tutulabilecek özel ses klonu sayısı sınırlıdır. Yer açmak için eski klonları silebilir ve yeniden oluşturabilirsiniz.

Akıl yürütme token’ları

Sesli ajan arka planda Grok 4.3 ile düşündüğünde konsol kredinizden kullanır. Ücretsiz kredi prototipleme için yeterlidir; üretim için ücretli plan gerekir.

Hız limiti hataları alırsanız:

İstekleri toplu hale getirin.
Testleri sıraya koyun.
Gerekiyorsa ücretli katmana geçin.

API davranışı değişmez; yalnızca limitler değişir.

Yayına almadan önce sesleri karşılaştırın

Üretime geçmeden önce aynı metni her sesle test edin. Farklı sesler aynı cümleyi farklı tonla okuyabilir.

Kısa bir test seti yeterlidir:

İki cümlelik karşılama
Onay cümlesi: “Anlaşıldı, hepsi hazır.”
Sayı, tarih ve virgül içeren uzun cümle
Kullanıcının sözünü kesmeden bekleme gerektiren bir destek yanıtı
Hata veya başarısız işlem mesajı

Dahili olarak kullanılabilecek basit test:

Aynı komutu sakin tonda söyleyin.
Aynı komutu normal tonda söyleyin.
Aynı komutu acil tonda söyleyin.
Modelin tonlama değişimini dinleyin.
Yanıtın doğal olup olmadığını kontrol edin.

Grok’un hazır sesleri, kıyaslanan birçok TTS motorundan daha iyi tonlama verebilir; yine de yayına almadan önce her kullanım senaryosunu dinleyerek doğrulamak gerekir.

Sıkça Sorulan Sorular

API gerçekten ücretsiz mi?

Ses özellikleri — TTS, STT, sesli ajan ve Özel Sesler — konsolda dakika veya token başına ücret taşımaz. Ancak arka plandaki Grok 4.3 akıl yürütme modeli konsol kredinizden kullanır. Konsol tahsisi prototipleme için yeterlidir.

X hesabı gerekiyor mu?

Evet. xAI Konsolu’na giriş için X hesabı gerekir.

Grok Voice tarayıcıdan kullanılabilir mi?

Evet. Ana API anahtarını tarayıcıya göndermeden geçici token kullanmanız gerekir. Sunucu tarafında /v1/realtime/sessions üzerinden kısa ömürlü token üretin, ardından tarayıcı WebSocket bağlantısını bu token ile açsın.

Hangi ses kalitesini beklemeliyim?

TTS çıktısı yüksek kaliteli MP3 veya 8 kHz μ-law olabilir. Sesli ajan tarafında PCM16 kullanılır. Kalite büyük ticari TTS motorlarıyla aynı sınıfta değerlendirilebilir; öne çıkan fark gecikmedir.

Telefon sistemleriyle çalışır mı?

Evet. μ-law çıktısı SIP ve PSTN köprüleri için standart formattır. Yine de ayrıca bir SIP sağlayıcısına ihtiyacınız vardır; xAI bugün kendi SIP ağ geçidini sağlamaz.

Ses klonlama kalitesi neye bağlıdır?

Klonlama kalitesi, kayıt uzunluğundan çok referans sesin temizliğine bağlıdır. Sessiz odada alınmış temiz 60 saniyelik kayıt, gürültülü 120 saniyelik kayıttan daha iyi sonuç verebilir.

Dönen voice_id, yeniden klonlama yapmadan TTS ve sesli ajan API’lerinde kullanılabilir.

Oyun içi yapay zeka karakterleri için kullanılabilir mi?

Evet. TTS uç noktası çalışma zamanı üretimi için yeterince hızlıdır ve Özel Sesler ile her karakter için ayrı ses oluşturabilirsiniz. Uzun repliklerde gecikmeyi izleyin; gerekiyorsa metni parçalara bölerek TTS üretin.

Özet

Grok Voice, gerçek zamanlı sesli ajan geliştirmek için düşük sürtünmeli bir başlangıç noktası sunar. Konsolda ses özellikleri için dakika başına ücret yoktur, WebSocket API doğrudan kullanılabilir ve Özel Sesler ile kısa bir referans kayıttan kendi voice_id değerinizi oluşturabilirsiniz.

Pratik başlangıç akışı:

xAI Konsolu’ndan API anahtarı alın.
Hazır bir ses seçin veya özel ses klonu oluşturun.
WebSocket oturumunu session.update ile yapılandırın.
PCM16 ses çerçevelerini gönderin.
response.audio.delta olaylarından yanıtı alın.
Aynı akışı Apidog’da kaydedip tekrar çalıştırın.

Grok 4.3 akıl yürütmesine geçmek için Grok 4.3 API kılavuzuna, OpenAI yığınıyla karşılaştırma için Grok Voice vs GPT-Realtime yazısına bakabilirsiniz.

DEV Community