DEV Community

Cover image for Cara Menggunakan API Grok 4.3
Walse
Walse

Posted on • Originally published at apidog.com

Cara Menggunakan API Grok 4.3

xAI meluncurkan Grok 4.3 secara bertahap: beta pada 17 April 2026, akses API pada 30 April, dan ketersediaan umum penuh pada 6 Mei. Rilis ini membawa jendela konteks 1.000.000 token, input video asli untuk pertama kalinya di seri Grok, penalaran selalu aktif, dan penurunan harga sekitar 40% dibandingkan Grok 4.20. Delapan model Grok lama akan dihentikan pada 15 Mei, jadi tim yang masih memakai seri grok-3 atau grok-4 perlu menyiapkan migrasi sekarang.

Coba Apidog hari ini

Panduan ini fokus pada implementasi: cara memanggil Grok 4.3 dari kode, endpoint, autentikasi, URL dasar kompatibel OpenAI, reasoning_effort, input video, function calling, dan setup pengujian di Apidog.

Untuk sisi suara dari rilis yang sama, lihat Cara menggunakan Grok Voice secara gratis. Untuk perbandingan langsung dengan model suara unggulan OpenAI, lihat Grok Voice vs GPT-Realtime.

TL;DR

  • Grok 4.3 tersedia umum pada 6 Mei 2026.
  • Delapan model lama dihentikan pada 15 Mei 2026.
  • Harga:
    • $1,25 / 1 juta token input
    • $2,50 / 1 juta token output
    • $0,20 / 1 juta token input cache
  • Jendela konteks: 1 juta token.
  • Mendukung input video asli.
  • Penalaran selalu aktif.
  • Nilai reasoning_effort: low, medium, high.
  • Default reasoning_effort: medium.
  • Endpoint utama:
https://api.x.ai/v1/chat/completions
Enter fullscreen mode Exit fullscreen mode
  • Throughput sekitar 159 token/detik pada tingkatan standar.
  • Indeks Intelijen 53 menurut Artificial Analysis, peringkat ke-10 dari 146 model.
  • Gunakan Apidog untuk menyimpan request, membandingkan konfigurasi penalaran, dan memutar ulang skenario pengujian.

Apa yang berubah di Grok 4.3

Perubahan yang paling relevan untuk developer:

  1. Harga turun sekitar 40%

Input turun 37,5% dibandingkan Grok 4.20. Output turun 58,3%. Tarif input cache menjadi $0,20 per 1 juta token, sehingga prompt sistem panjang yang stabil menjadi jauh lebih murah.

  1. Konteks naik ke 1 juta token

Sebelumnya Grok 4.20 memiliki konteks 256 ribu token. Dengan 1 juta token, Anda bisa mengirim codebase ukuran sedang, transkrip panjang, dokumen hukum, atau konteks agen yang besar dalam satu request.

  1. Input video asli

Grok 4.3 dapat menerima URL video dan melakukan penalaran pada frame video secara native.

  1. Penalaran selalu aktif

Setiap request selalu memakai penalaran dasar. Anda hanya mengatur tingkat kedalaman dengan reasoning_effort.

  1. Peningkatan alur agentic

Grok 4.3 naik +300 poin Elo pada GDPval-AA dibandingkan Grok 4.20. Dampaknya terlihat pada workflow multi-langkah dan pemilihan tool.

Menurut Artificial Analysis, Indeks Intelijen 53 menempatkan Grok 4.3 di atas rata-rata 35 untuk kelas harganya.

Prasyarat

Sebelum memanggil API, siapkan:

  • Akun xAI Console di console.x.ai.
  • API key dari tier yang dapat ditagih.
  • SDK OpenAI atau SDK xAI.
  • API client untuk menyimpan dan menjalankan ulang request.

Ekspor API key:

export XAI_API_KEY="xai-..."
Enter fullscreen mode Exit fullscreen mode

Jika memakai Python, siapkan environment:

pip install openai
Enter fullscreen mode Exit fullscreen mode

Endpoint dan autentikasi

Grok 4.3 memakai antarmuka Chat Completions yang kompatibel dengan OpenAI.

POST https://api.x.ai/v1/chat/completions
Enter fullscreen mode Exit fullscreen mode

Header yang dibutuhkan:

Authorization: Bearer $XAI_API_KEY
Content-Type: application/json
Enter fullscreen mode Exit fullscreen mode

Karena kompatibel dengan OpenAI, migrasi biasanya hanya membutuhkan dua perubahan:

  • base_url
  • model

Contoh Python:

import os
from openai import OpenAI

client = OpenAI(
    api_key=os.environ["XAI_API_KEY"],
    base_url="https://api.x.ai/v1",
)

response = client.chat.completions.create(
    model="grok-4.3",
    messages=[
        {
            "role": "user",
            "content": "Summarize the trade-offs of GraphQL vs REST in three bullets."
        }
    ],
    reasoning_effort="medium",
)

print(response.choices[0].message.content)
Enter fullscreen mode Exit fullscreen mode

Parameter request

Parameter utama untuk Grok 4.3:

Parameter Tipe Nilai Catatan
model string grok-4.3 Wajib
messages array Format pesan OpenAI Wajib
reasoning_effort string low, medium, high Opsional, default medium
max_tokens int 1–32768 Membatasi output
temperature float 0.0–2.0 Default 1.0
top_p float 0.0–1.0 Nucleus sampling
stream bool true / false Streaming jika true
tools array Format tools OpenAI Untuk function calling
tool_choice string / object auto, none, atau tool tertentu Semantik OpenAI standar
response_format object { "type": "json_object" } Output terstruktur
seed int integer apa pun Untuk reproduktibilitas saat temperature: 0

Contoh curl:

curl https://api.x.ai/v1/chat/completions \
  -H "Authorization: Bearer $XAI_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "grok-4.3",
    "messages": [
      {
        "role": "system",
        "content": "You are a senior backend engineer."
      },
      {
        "role": "user",
        "content": "Review this query plan and flag the bottleneck."
      }
    ],
    "reasoning_effort": "high"
  }'
Enter fullscreen mode Exit fullscreen mode

Respons memakai bentuk standar OpenAI:

{
  "choices": [
    {
      "message": {
        "role": "assistant",
        "content": "..."
      }
    }
  ],
  "usage": {
    "prompt_tokens": 123,
    "completion_tokens": 456,
    "reasoning_tokens": 78,
    "total_tokens": 657
  }
}
Enter fullscreen mode Exit fullscreen mode

Mengatur reasoning_effort

Gunakan reasoning_effort untuk mengontrol kedalaman penalaran.

low

Cocok untuk:

  • klasifikasi
  • ekstraksi field
  • ringkasan pendek
  • Q&A sederhana
  • routing request

Contoh:

response = client.chat.completions.create(
    model="grok-4.3",
    messages=[
        {
            "role": "user",
            "content": "Classify this ticket as billing, technical, or account."
        }
    ],
    reasoning_effort="low",
)
Enter fullscreen mode Exit fullscreen mode

medium

Default. Cocok untuk:

  • customer support
  • analisis data ringan
  • function calling satu langkah
  • review dokumen
  • workload produksi umum
response = client.chat.completions.create(
    model="grok-4.3",
    messages=[
        {
            "role": "user",
            "content": "Analyze this API error log and suggest the most likely root cause."
        }
    ],
    reasoning_effort="medium",
)
Enter fullscreen mode Exit fullscreen mode

high

Cocok untuk:

  • agen multi-langkah
  • debugging kompleks
  • review kode panjang
  • perencanaan
  • matematika atau reasoning yang berat
response = client.chat.completions.create(
    model="grok-4.3",
    messages=[
        {
            "role": "user",
            "content": "Plan a safe migration from monolith to service-based architecture."
        }
    ],
    reasoning_effort="high",
)
Enter fullscreen mode Exit fullscreen mode

Catatan penting: penalaran selalu aktif. Bahkan low tetap melakukan penalaran dasar. Jadi jangan mengasumsikan ada mode “tanpa reasoning”.

Function calling

Grok 4.3 mendukung bentuk function calling standar OpenAI.

Alurnya:

  1. Deklarasikan tool.
  2. Kirim request.
  3. Baca tool_calls dari pesan asisten.
  4. Eksekusi fungsi di aplikasi Anda.
  5. Kirim hasil fungsi sebagai pesan role: tool.

Contoh deklarasi tool:

tools = [
    {
        "type": "function",
        "function": {
            "name": "lookup_user",
            "description": "Look up a user by ID.",
            "parameters": {
                "type": "object",
                "properties": {
                    "user_id": {
                        "type": "string"
                    }
                },
                "required": ["user_id"],
            },
        },
    }
]
Enter fullscreen mode Exit fullscreen mode

Request:

response = client.chat.completions.create(
    model="grok-4.3",
    messages=[
        {
            "role": "user",
            "content": "Find user u_42 and tell me their last login."
        }
    ],
    tools=tools,
    reasoning_effort="medium",
)

message = response.choices[0].message
tool_calls = message.tool_calls

print(tool_calls)
Enter fullscreen mode Exit fullscreen mode

Contoh eksekusi sederhana:

def lookup_user(user_id: str):
    return {
        "user_id": user_id,
        "last_login": "2026-05-07T10:15:00Z"
    }
Enter fullscreen mode Exit fullscreen mode

Lalu kirim hasil tool kembali ke model:

import json

tool_call = tool_calls[0]

tool_result = lookup_user(
    user_id=json.loads(tool_call.function.arguments)["user_id"]
)

follow_up = client.chat.completions.create(
    model="grok-4.3",
    messages=[
        {
            "role": "user",
            "content": "Find user u_42 and tell me their last login."
        },
        message,
        {
            "role": "tool",
            "tool_call_id": tool_call.id,
            "content": json.dumps(tool_result),
        },
    ],
    tools=tools,
)

print(follow_up.choices[0].message.content)
Enter fullscreen mode Exit fullscreen mode

Jika Anda menguji workflow tool atau server MCP, lihat pengujian server MCP di Apidog.

Input video

Grok 4.3 adalah model Grok pertama dengan input video asli.

Contoh request:

response = client.chat.completions.create(
    model="grok-4.3",
    messages=[
        {
            "role": "user",
            "content": [
                {
                    "type": "text",
                    "text": "Describe what happens in this clip and flag any anomalies."
                },
                {
                    "type": "video_url",
                    "video_url": {
                        "url": "https://example.com/clip.mp4"
                    }
                },
            ],
        }
    ],
)
Enter fullscreen mode Exit fullscreen mode

Hal yang perlu diperhatikan:

  • Token video dihitung sebagai token input.
  • Klip panjang dapat menghabiskan konteks dengan cepat.
  • Jika biaya penting, pangkas video sebelum dikirim.
  • Anda tidak perlu mengekstrak keyframe manual karena model melakukan penalaran pada frame video secara native.

Memakai konteks 1 juta token

Jendela konteks 1 juta token berguna untuk workload nyata, terutama jika input Anda panjang dan saling bergantung.

Contoh penggunaan:

1. Review codebase

Gabungkan:

  • diff
  • file yang berubah
  • output test
  • output lint
  • arsitektur singkat

Lalu minta review:

Review this change for correctness, security issues, and regression risk.
Prioritize findings that can break production.
Enter fullscreen mode Exit fullscreen mode

2. QA dokumen panjang

Masukkan dokumen besar seperti kontrak, SOP, atau laporan audit, lalu ajukan pertanyaan spesifik.

Find all clauses related to data retention, deletion, and third-party processors.
Return clause number, summary, and risk level.
Enter fullscreen mode Exit fullscreen mode

3. Memori percakapan agen

Simpan riwayat percakapan panjang untuk personalisasi atau continuity pada agen.

Input cache seharga $0,20 per 1 juta token membuat prompt stabil lebih murah. Contoh: prompt sistem 400 ribu token yang cacheable akan memakai biaya cache sekitar $0,08 per panggilan, bukan $0,50 jika dihitung sebagai input baru.

Migrasi dari model Grok lama

Delapan model Grok lama akan dihentikan pada 15 Mei 2026 pukul 12:00 PM PT.

Langkah migrasi minimal:

- model="grok-4.20"
+ model="grok-4.3"
Enter fullscreen mode Exit fullscreen mode

Karena format request tidak berubah, sebagian besar integrasi hanya perlu mengganti string model.

Namun, uji dua hal berikut sebelum produksi.

1. reasoning_effort

Beberapa model lama tidak menerima reasoning_effort. Grok 4.3 selalu melakukan penalaran.

Jika jalur lama Anda mengandalkan latensi rendah, mulai dengan:

{
  "reasoning_effort": "low"
}
Enter fullscreen mode Exit fullscreen mode

2. Format output

Grok 4.3 cenderung menghasilkan output yang lebih terstruktur dibandingkan Grok 4.20. Jika pipeline Anda memakai regex atau parser rapuh, jalankan regression test.

Untuk perbandingan harga dengan lini OpenAI, lihat Harga GPT-5.5. Untuk model reasoning lain, lihat Cara menggunakan API GPT-5.5.

Pengujian di Apidog

Cara praktis memvalidasi Grok 4.3:

  1. Buat environment Apidog.
  2. Tambahkan variabel:
XAI_API_KEY = xai-...
BASE_URL = https://api.x.ai/v1
Enter fullscreen mode Exit fullscreen mode
  1. Buat request:
POST {{BASE_URL}}/chat/completions
Enter fullscreen mode Exit fullscreen mode
  1. Tambahkan header:
Authorization: Bearer {{XAI_API_KEY}}
Content-Type: application/json
Enter fullscreen mode Exit fullscreen mode
  1. Buat tiga varian body dengan prompt yang sama:
{
  "model": "grok-4.3",
  "messages": [
    {
      "role": "user",
      "content": "Analyze this incident report and identify root cause, impact, and next actions."
    }
  ],
  "reasoning_effort": "low"
}
Enter fullscreen mode Exit fullscreen mode

Ulangi untuk:

"reasoning_effort": "medium"
Enter fullscreen mode Exit fullscreen mode

dan:

"reasoning_effort": "high"
Enter fullscreen mode Exit fullscreen mode
  1. Bandingkan:
  • kualitas jawaban
  • latensi
  • usage.reasoning_tokens
  • usage.total_tokens
  • biaya estimasi
  1. Tambahkan varian keempat dengan provider lain jika ingin membandingkan model pada input yang sama.

Unduh Apidog untuk menjalankan perbandingan ini. Untuk strategi pengujian API yang lebih luas, lihat Alat pengujian API untuk insinyur QA.

Batas kecepatan

Batas rate limit di xAI Console bergantung pada tier akun. Rentangnya dapat berubah, jadi gunakan dashboard console sebagai sumber utama.

Throughput sekitar 159 token/detik adalah kecepatan output per stream, bukan total agregat untuk semua request.

Jika terkena rate limit, API mengembalikan status 429 dengan header retry-after.

Contoh backoff sederhana:

import time
from openai import RateLimitError

for attempt in range(5):
    try:
        response = client.chat.completions.create(
            model="grok-4.3",
            messages=[
                {
                    "role": "user",
                    "content": "Summarize this log."
                }
            ],
        )
        break
    except RateLimitError:
        sleep_seconds = 2 ** attempt
        time.sleep(sleep_seconds)
Enter fullscreen mode Exit fullscreen mode

FAQ

Apakah Grok 4.3 kompatibel dengan OpenAI?

Untuk Chat Completions, ya. Gunakan SDK OpenAI, ubah base_url, lalu ubah model.

Function calling, output terstruktur, dan streaming memakai bentuk yang sama.

Apakah Grok 4.3 mendukung Responses API?

Saat ini antarmuka xAI memakai Chat Completions. Responses API adalah antarmuka OpenAI.

Berapa batas konteks dalam praktik?

Batas konteksnya 1.000.000 token. Namun input panjang tetap memiliki biaya, jadi gunakan cache untuk prompt yang stabil.

Bagaimana penalaran selalu aktif memengaruhi latensi?

Latensi token pertama bisa lebih tinggi dibanding model non-reasoning. Namun Grok 4.3 mengalirkan output sekitar 159 token/detik, sehingga waktu respons end-to-end tetap kompetitif untuk workload yang membutuhkan akurasi.

Bisakah Grok 4.3 digunakan dengan Grok Voice?

Ya. Agen suara grok-voice-think-fast-1.0 memanggil Grok 4.3 di balik layar saat melakukan penalaran. Anda juga dapat memanggil Grok 4.3 langsung dari loop suara yang dibangun di atas TTS dan STT.

Apa yang terjadi dengan panggilan Grok lama setelah 15 Mei?

Panggilan ke model yang dihentikan akan gagal dengan 410. Migrasikan sebelum batas waktu.

Apakah Grok 4.3 mendukung input gambar?

Ya. Selain input video baru, Grok 4.3 juga mendukung input gambar. Gunakan URL gambar dalam blok konten dengan pola yang kompatibel dengan OpenAI.

Ringkasan

Grok 4.3 membawa kombinasi yang kuat untuk workload produksi: harga lebih rendah, konteks 1 juta token, penalaran selalu aktif, input video asli, dan kompatibilitas OpenAI.

Jalur migrasi paling cepat:

  1. Ubah base_url ke https://api.x.ai/v1.
  2. Ubah model ke grok-4.3.
  3. Tambahkan atau uji reasoning_effort.
  4. Jalankan regression test pada output.
  5. Bandingkan low, medium, dan high di Apidog.
  6. Migrasi sebelum 15 Mei 2026.

Top comments (0)