Walse

Posted on May 7 • Originally published at apidog.com

TradingAgents: Framework Trading LLM Open-Source

Sebagian besar framework LLM multi-agen menjanjikan lebih dari yang mereka kirimkan. TradingAgents adalah pengecualian yang menarik: proyek open source dari Tauric Research bersama makalah arXiv, kini di versi 0.2.4, dengan pemisahan peran yang jelas seperti meja riset sungguhan: analis fundamental, sentimen, berita, dan teknikal; debat Bull/Bear; Trader; komite Manajemen Risiko; lalu keputusan terstruktur yang bisa diaudit.

Coba Apidog hari ini

Artikel ini membahas apa yang dilakukan TradingAgents, apa yang berubah di v0.2.4, bagaimana posisinya dibanding LangGraph dan CrewAI, serta cara menguji lapisan LLM dan data pasar dengan Apidog. Jika Anda sedang merancang kontrak antar-agen, panduan agents.md kami untuk tim API relevan sebagai bacaan lanjutan.

TL;DR

TradingAgents adalah framework perdagangan LLM multi-agen dari Tauric Research, didukung arXiv 2412.20138, open source pada 2025, dan kini di versi 0.2.4.
Perdagangan dipecah menjadi agen spesialis: Fundamental Analyst, Sentiment Analyst, News Analyst, Technical Analyst, Bull/Bear Researcher, Trader, dan Risk Management.
v0.2.4 menambahkan structured output agents, resume checkpoint LangGraph, log keputusan persisten, serta dukungan DeepSeek, Qwen, GLM, dan Azure OpenAI.
Framework ini berjalan di endpoint LLM yang kompatibel dengan OpenAI, sehingga model hosted, lokal, dan self-hosted bisa dipertukarkan.
Gunakan Apidog untuk mock API data pasar, replay traffic penyedia LLM, dan membandingkan biaya mode berpikir di DeepSeek, OpenAI, dan Anthropic.
Unduh Apidog jika Anda ingin memasukkan pengujian ini ke CI sebelum mempercayai agen dengan uang sungguhan.

Apa Itu TradingAgents

TradingAgents adalah paket Python dan CLI yang memecah workflow perdagangan menjadi beberapa peran spesialis. Setiap peran adalah agen LLM dengan:

prompt berisi deskripsi pekerjaan,
akses ke tool tertentu,
orkestrasi melalui LangGraph,
output yang mengalir dari pengumpulan data sampai keputusan akhir.

Alur dasarnya:

Kumpulkan data pasar dan konteks.
Setiap analis membuat laporan.
Bull dan Bear Researcher berdebat.
Trader mengambil keputusan.
Risk Management meninjau keputusan.
Keputusan akhir dicatat untuk audit.

README menyatakan proyek ini sebagai kode riset, bukan nasihat investasi. Artinya, gunakan untuk mempelajari pola multi-agen, bukan langsung sebagai bot trading produksi.

Yang menarik secara engineering adalah pemisahan tanggung jawabnya:

Fundamental Analyst mengevaluasi kondisi keuangan perusahaan.
Sentiment Analyst membaca sinyal media sosial.
News Analyst memantau berita dan indikator makro.
Technical Analyst menghitung indikator seperti MACD dan RSI.
Bull/Bear Researcher menyusun argumen pro dan kontra.
Trader membaca laporan dan membuat rencana.
Risk Management mengecek rencana terhadap batasan risiko.

Pola ini bisa ditransfer ke workflow agen lain: spesialisasi peran, debat, keputusan, lalu verifikasi.

Apa yang Baru di v0.2.4

Rilis April 2026 penting karena membuat TradingAgents lebih mudah diuji dan dioperasikan.

1. Structured output agents

Research Manager, Trader, dan Portfolio Manager kini menghasilkan output terstruktur melalui OpenAI Responses API atau tool-use channel Anthropic.

Dampaknya:

tidak perlu parsing teks bebas,
output lebih cocok untuk otomatisasi,
validasi JSON bisa dilakukan di CI,
pipeline downstream lebih stabil.

Contoh validasi yang sebaiknya Anda lakukan:

{
  "ticker": "AAPL",
  "decision": "hold",
  "rationale": "...",
  "risk_level": "neutral"
}

Di lapisan test, pastikan field penting seperti decision, rationale, dan risk_level selalu ada.

2. Resume checkpoint LangGraph

Eksekusi jangka panjang bisa dijeda dan dilanjutkan dari checkpoint.

Ini berguna saat:

API data pasar mengembalikan rate limit,
penyedia LLM mengembalikan 429,
koneksi terputus,
satu node agen gagal di tengah workflow.

Tanpa checkpoint, seluruh eksekusi harus dimulai dari awal.

3. Log keputusan persisten

Setiap keputusan Trader dicatat ke SQLite dengan alasan, input, dan timestamp.

Gunakan log ini untuk:

audit keputusan,
membandingkan model,
replay eksperimen,
evaluasi regresi setelah prompt atau model diganti.

4. Dukungan multi-penyedia

v0.2.4 menambahkan dukungan untuk DeepSeek, Qwen, GLM, dan Azure OpenAI di atas OpenAI, Anthropic, Gemini, dan Grok.

Jika ingin mencoba reasoning yang lebih murah per token, Anda bisa memakai DeepSeek V4 melalui endpoint kompatibel OpenAI. Jika membutuhkan konteks panjang atau visi, Anda bisa beralih ke Gemini.

5. Docker dan perbaikan UTF-8 Windows

Framework kini menyertakan Dockerfile dan memperbaiki bug encoding path Windows dari v0.2.3.

Ini bukan fitur yang terlihat menarik, tetapi penting untuk reproducible setup.

Arsitektur Agen

Eksekusi penuh TradingAgents biasanya berjalan seperti ini:

CLI menerima ticker dan tanggal.
Empat analis mengambil data dan menulis laporan masing-masing.
Bull Researcher dan Bear Researcher membaca laporan tersebut.
Keduanya berdebat.
Research Manager menyintesis debat menjadi rekomendasi.
Trader membuat rencana perdagangan.
Risk Management meninjau dari perspektif agresif, konservatif, dan netral.
Portfolio Manager menyetujui atau meminta revisi.
Keputusan akhir disimpan ke SQLite.

Bagian paling mahal secara token biasanya ada di:

debat Bull/Bear,
review Risk Management.

Model kecil sering gagal di bagian ini karena argumennya berulang dan tidak tajam. Model reasoning seperti mode berpikir DeepSeek V4, GPT-5.5, atau Claude 4.5 biasanya menghasilkan debat yang lebih terstruktur.

Mengapa Lapisan LLM dan Data Pasar Harus Diuji

Saat menjalankan TradingAgents, ada dua permukaan yang sering gagal:

API data pasar.
API penyedia LLM.

Risiko di API data pasar

Vendor seperti Yahoo Finance, FinnHub, Polygon, atau OpenBB bisa berubah tanpa banyak pemberitahuan:

field diganti nama,
field hilang,
format tanggal berubah,
rate limit berbeda,
data historis tidak konsisten antar-vendor.

Contoh masalah sederhana:

{
  "regularMarketTime": 1714478400
}

lalu berubah menjadi:

{
  "regular_market_time": 1714478400
}

Jika parser Anda masih membaca regularMarketTime, workflow bisa rusak atau lebih buruk: agen mulai mengambil kesimpulan dari data kosong.

Risiko di API LLM

Penyedia LLM punya perbedaan format:

OpenAI Responses API punya struktur respons sendiri.
Anthropic tool use mengembalikan content block.
DeepSeek mode berpikir bisa menaikkan biaya.
Model lokal kompatibel OpenAI belum tentu identik perilakunya.

Kedua lapisan ini perlu koleksi request kanonik yang bisa disimpan, di-replay, dan divalidasi. Itulah tempat Apidog berguna. Pola serupa juga dibahas di panduan pengujian server MCP.

Cara Mock API Data Pasar di Apidog

Gunakan mock server agar test TradingAgents tidak bergantung pada vendor langsung.

Langkah 1: Definisikan endpoint upstream

Di proyek Apidog, buat endpoint untuk vendor yang dipakai TradingAgents, misalnya:

Yahoo Finance,
FinnHub,
Polygon,
OpenBB.

Simpan contoh respons dari request asli.

Contoh fixture sederhana:

{
  "symbol": "AAPL",
  "regularMarketPrice": 189.98,
  "regularMarketTime": 1714478400,
  "currency": "USD"
}

Pastikan fixture berisi field yang benar-benar digunakan tool TradingAgents.

Langkah 2: Aktifkan mock server

Nyalakan mock server Apidog, lalu arahkan konfigurasi tool TradingAgents ke URL mock, bukan URL vendor asli.

Secara konsep:

export MARKET_DATA_BASE_URL="https://mock-server.example.com"

Dengan ini, Fundamental Analyst dan agen lain membaca data deterministik. Test tidak lagi gagal karena rate limit Yahoo atau perubahan jam pasar.

Langkah 3: Deteksi schema drift vendor

Secara berkala, replay request ke endpoint vendor asli dan bandingkan dengan fixture.

Cari perubahan seperti:

field baru,
field hilang,
field rename,
tipe data berubah.

Apidog bisa membantu menyorot perbedaan bentuk respons. Pola ini sama dengan workflow contract-first API development.

Cara Menguji Penyedia LLM

Sebelum menjalankan batch besar, uji tiga hal berikut.

1. Biaya per peran

Jalankan satu ticker melalui analis dan debat. Catat token per agen di log request Apidog.

Yang perlu diamati:

token Fundamental Analyst,
token Sentiment Analyst,
token News Analyst,
token Technical Analyst,
token Bull/Bear debate,
token Risk Management.

Biasanya debat Bull/Bear 3–5x lebih mahal daripada analis individual. Jika jauh lebih murah, kemungkinan debat terlalu pendek atau model melakukan shortcut.

2. Bentuk output

Untuk agen structured output di v0.2.4, tambahkan assertion JSONPath.

Contoh assertion:

$.decision exists
$.rationale exists
$.risk_level exists

Atau jika output harus berupa enum:

$.decision in ["buy", "sell", "hold"]

Regresi di sini sering tidak terlihat sampai kode downstream crash.

3. Paritas antar-penyedia

Saat mengganti OpenAI ke DeepSeek V4, keputusan per eksekusi boleh berbeda. Namun, pada banyak ticker, pola kesimpulan seharusnya masih bisa dibandingkan.

Workflow praktis:

Pilih 50 ticker.
Jalankan dengan OpenAI.
Jalankan dengan DeepSeek V4.
Simpan log keputusan.
Bandingkan distribusi buy, sell, dan hold.
Periksa alasan keputusan yang menyimpang jauh.

Untuk bentuk request DeepSeek, lihat panduan API DeepSeek V4. Untuk sisi OpenAI, lihat panduan API GPT-5.5.

Eksekusi Minimal TradingAgents

Quickstart dasarnya:

git clone https://github.com/TauricResearch/TradingAgents
cd TradingAgents
pip install -r requirements.txt

export OPENAI_API_KEY="sk-..."
export FINNHUB_API_KEY="..."

python -m tradingagents.cli \
  --ticker AAPL \
  --date 2026-04-30 \
  --models gpt-5.5 \
  --rounds 2

Dua putaran debat adalah eksekusi bermakna terkecil. Output biasanya disimpan di:

tradingagents/results/

Format output mencakup JSON dan ringkasan keputusan Markdown.

Untuk memakai DeepSeek V4 Pro pada peran yang butuh reasoning tinggi:

export DEEPSEEK_API_KEY="sk-..."

python -m tradingagents.cli \
  --ticker AAPL \
  --date 2026-04-30 \
  --models deepseek-v4-pro \
  --provider deepseek \
  --rounds 2

Pola serupa berlaku untuk Qwen 3.6, GLM 5, atau model lokal yang disajikan lewat Ollama atau vLLM. Untuk opsi model lokal, lihat postingan LLM lokal terbaik 2026.

Kesalahan Umum

1. Menjalankan dengan model terlalu kecil

Model lokal 7B sering menghasilkan debat Bull/Bear yang repetitif. Untuk workflow ini, gunakan model dengan kemampuan reasoning menengah ke atas.

Batas realistis yang disebutkan:

DeepSeek V4 Flash,
Qwen 3.6 32B,
GPT-5.5,
Claude 4.5.

2. Tidak mengaktifkan caching data pasar

Setiap analis bisa memanggil lapisan data secara terpisah. Tanpa caching, satu eksekusi bisa memicu 4–8 request vendor.

Aktifkan caching agar:

biaya turun,
rate limit lebih aman,
test lebih stabil,
replay lebih mudah.

3. Memperlakukan TradingAgents sebagai bot trading

Repo menyatakan ini sebagai kode riset. Jangan menganggap output sebagai strategi final.

Backtest sangat sensitif terhadap:

model,
prompt seed,
jumlah ronde debat,
kualitas data,
vendor data pasar.

Anggap output sebagai hipotesis yang perlu diuji.

4. Tidak mencatat biaya token

Satu eksekusi ticker bisa berbiaya sekitar $0.10 sampai $5 tergantung model dan jumlah ronde.

Catat:

total token input,
total token output,
biaya per agen,
biaya per ticker,
biaya per batch.

Gunakan riwayat replay Apidog untuk mendeteksi loop debat yang tidak terkendali.

5. Mengunci ke satu penyedia

Dukungan multi-penyedia ditambahkan agar Anda bisa membandingkan model.

Sebelum commit ke satu provider:

Jalankan batch kecil di tiga provider.
Bandingkan log keputusan.
Hitung biaya.
Periksa stabilitas output JSON.
Baru pilih konfigurasi default.

Di Mana Apidog Masuk ke Workflow

Ada tiga titik praktis untuk memakai Apidog di proyek TradingAgents.

1. Desain kontrak API

Sebelum menghubungkan ke vendor langsung, dokumentasikan endpoint data pasar di Apidog.

Manfaatnya:

terlihat field mana yang benar-benar dipakai,
schema lebih eksplisit,
perubahan vendor lebih mudah dideteksi,
tim tidak membayar data yang tidak digunakan.

2. CI lokal

Gunakan mock server Apidog saat unit test berjalan.

Hasilnya:

test tidak tergantung jam pasar,
tidak terkena rate limit,
tidak perlu API key vendor di semua environment,
suite test bisa tetap cepat.

Pola serupa dibahas di pengujian API tanpa Postman.

3. Regresi mingguan

Setiap minggu, replay endpoint live terhadap fixture yang disimpan.

Jika ada field rename atau perubahan bentuk respons, Anda bisa menangkapnya sebelum agen memakai data yang salah.

Ini adalah alarm murah untuk masalah seperti:

lapisan data rusak, lalu agen mulai mengarang angka.

Mengapa Pola Ini Berguna di Luar Trading

TradingAgents adalah contoh open source yang jelas untuk dekomposisi agen. Polanya bisa dipakai di domain lain:

Customer support triage: agen per jenis tiket, debat, keputusan.
Code review: agen security, performance, style, lalu synthesizer.
Compliance review: analis data, risk reviewer, komite keputusan.
Research summarization: beberapa reader spesialis, debat, sintesis.

Jika Anda membangun workflow multi-agen, pelajari dulu struktur TradingAgents:

role separation,
debate stage,
structured decision,
persistent log,
review layer.

Pola tersebut bisa diuji, dan di sinilah integrasi dengan Apidog menjadi relevan.

Kasus Penggunaan Dunia Nyata

Mahasiswa riset kuantitatif memakai TradingAgents untuk membandingkan DeepSeek V4, GPT-5.5, dan Claude 4.5 pada 30 ticker yang sama. Apidog menangkap request dan response agar eksperimen bisa direproduksi.
Insinyur fintech memakai pola multi-agen, bukan kode trading-nya, untuk review layanan internal. Agen spesialis mengecek security, performance, dan naming. Synthesizer menulis komentar PR. Total biaya review per PR sekitar $0.04.
Solo developer menjalankan TradingAgents tiap malam pada watchlist 10 ticker dan menyimpan keputusan ke Postgres. Mock server Apidog menggantikan vendor data pasar saat test akhir pekan.

Kesimpulan

TradingAgents adalah contoh implementasi multi-agen yang rapi: bukan sekadar chatbot, tetapi workflow dengan analis spesialis, debat, keputusan terstruktur, risk review, dan audit log.

v0.2.4 membuatnya lebih menarik untuk eksperimen serius karena membawa:

structured output,
checkpoint resume,
persistent decision log,
dukungan multi-penyedia,
Docker dan perbaikan compatibility.

Namun, semua itu tidak cukup jika lapisan data pasar dan LLM tidak bisa diuji. Gunakan Apidog untuk mock vendor, replay request, validasi schema, dan membandingkan provider.

Lima poin penting:

TradingAgents memecah workflow trading menjadi agen spesialis dengan fase debat.
v0.2.4 menambahkan structured output, checkpoint LangGraph, dan provider DeepSeek/Qwen/GLM/Azure.
Mock API data pasar di Apidog agar test deterministik.
Uji paritas penyedia LLM sebelum mengganti model di workflow produksi.
Pola spesialis → debat → keputusan → log bisa dipakai di workflow agen non-trading.

Langkah berikutnya: clone repo, jalankan satu ticker dengan LLM pilihan Anda, lalu arahkan panggilan upstream melalui mock server Apidog. Dalam satu jam, Anda bisa menilai apakah arsitektur ini cocok untuk workflow Anda.

FAQ

Apakah TradingAgents aman digunakan dengan uang sungguhan?

Repo menyatakan ini adalah kode riset dan bukan nasihat keuangan. Perlakukan output sebagai hipotesis. Jika digunakan dengan broker langsung, risikonya ditanggung pengguna.

Penyedia LLM mana yang memberi trade-off biaya-kualitas terbaik?

Untuk banyak workload awal 2026, DeepSeek V4 Flash dengan mode berpikir lebih murah daripada GPT-5.5 dan bisa mendekati kualitas debat Bull/Bear. Lihat panduan API DeepSeek V4 untuk bentuk request.

Bisakah TradingAgents dijalankan di model lokal?

Ya. v0.2.0 menambahkan dukungan multi-penyedia. Ollama, vLLM, dan LM Studio menyediakan endpoint kompatibel OpenAI yang bisa digunakan framework ini. Lihat postingan LLM lokal terbaik 2026 untuk pilihan model.

Bagaimana cara mock API data pasar?

Definisikan endpoint vendor di Apidog, aktifkan mock server, lalu arahkan konfigurasi tool TradingAgents ke URL mock. Pola serupa didokumentasikan di alat pengujian API untuk engineer QA.

Apa kebutuhan hardware minimum?

Jika memakai LLM hosted seperti OpenAI, Anthropic, atau DeepSeek, laptop dengan Python 3.10+ cukup. Jika menjalankan model lokal, kebutuhan hardware mengikuti model: GPU 24 GB untuk model seperti DeepSeek V4 Flash atau Qwen 3.6 32B; GPU 8 GB untuk model kecil seperti Llama 5.1 8B. Kualitas reasoning turun pada model yang lebih kecil.

Apakah mendukung simulasi setelah jam kerja dan akhir pekan?

Vendor data pasar mengembalikan data historis, sehingga framework bisa berjalan pada tanggal yang Anda pilih. Perdagangan live adalah masalah berbeda dan tidak diselesaikan secara eksplisit oleh framework ini.

Bagaimana perbandingannya dengan framework multi-agen lain?

TradingAgents spesifik untuk domain trading. CrewAI, AutoGen, dan LangGraph lebih umum. Jika ingin mempelajari pola multi-agen yang konkret, baca TradingAgents. Jika ingin membangun sistem agen generik, mulai dari kode LangGraph yang mendasarinya.