Tu factura de OpenAI dice que gastaste $4,237 el mes pasado. No te dice que $3,100 vinieron de un único endpoint de resumen descontrolado, $700 de un cliente que paga $50 al mes y $437 de una función que nadie usa. El panel de control oculta la información que necesitas para decidir precios, capacidad y roadmap.
Esta guía muestra cómo implementar atribución de costos para la API de OpenAI: etiquetar cada solicitud con metadatos, calcular el gasto por función, ruta y cliente, configurar límites de presupuesto por clave y diseñar prompts para que el costo deje de ser una línea opaca.
💡 Apidog te ayuda a validar solicitudes etiquetadas antes de producción. Úsalo para reproducir llamadas, verificar la forma del log y comprobar que cada request incluye los metadatos que tu almacén espera.
En resumen
Etiqueta cada llamada a la API de OpenAI con metadatos estructurados:
featureroutecustomer_idenvironmentmodel
Después, emite un log estructurado por solicitud con tokens, latencia y costo calculado. Agrega esos eventos en tu almacén de datos y consulta el gasto por función, cliente o ruta.
También deberías:
- configurar límites de presupuesto por clave en OpenAI;
- crear alertas sobre anomalías de gasto por hora;
- validar el wrapper extremo a extremo con Apidog.
Introducción
Lanzas una función de IA el martes. El viernes, tu CFO pregunta por qué el gasto de OpenAI subió 40%. Abres el panel de OpenAI. Ves que el gasto total sube, pero no sabes qué función, cliente o ruta lo causó.
Esa es la brecha que encuentran los equipos que ejecutan LLMs en producción. La interfaz de facturación de OpenAI sirve para cuentas por pagar, no para atribución técnica. Ves totales diarios y desglose por modelo, pero no ves la solicitud, el cliente, la ruta ni la función que activó el gasto.
La solución es directa:
- envolver cada llamada a OpenAI;
- añadir metadatos obligatorios;
- registrar cada solicitud en un formato estructurado;
- calcular el costo al momento de escribir el evento;
- agregar por etiquetas;
- alertar sobre desviaciones.
Para el contexto de precios que alimenta el cálculo de costos, consulta el desglose de precios de GPT-5.5. Para un problema relacionado de atribución de facturación en herramientas para desarrolladores, consulta la facturación de uso de GitHub Copilot para equipos de API. Para los conceptos básicos, revisa la referencia oficial de la API de OpenAI.
Por qué el panel de facturación de OpenAI no es suficiente
El panel de OpenAI muestra gasto diario, desglose por modelo y límite de uso. Eso funciona si tienes una sola app, un solo cliente y una sola función.
Deja de ser suficiente cuando tienes:
- múltiples funciones;
- múltiples clientes;
- múltiples entornos;
- múltiples desarrolladores;
- jobs en background;
- workers o colas;
- distintos productos usando la misma organización.
Lo que falta:
Gasto total sin contexto
El panel puede decir que ayer gastaste $312 en GPT-5.5. No te dice si vino de un cliente usando el chat de soporte 50,000 veces o de un job nocturno que resumió toda tu base de conocimiento por error.
Sin desglose por función
OpenAI etiqueta por clave de API y modelo. No etiqueta por función, ruta, cliente ni entorno. Si necesitas esas dimensiones, debes capturarlas en tu aplicación.
Retraso en los informes
Los datos de uso pueden tardar decenas de minutos o algunas horas. Para cuando un bucle descontrolado aparece en el panel, ya consumió presupuesto. Para alertas operativas necesitas datos propios casi en tiempo real.
Sin alertas por función
OpenAI ofrece límites y notificaciones generales. No hay una alerta nativa del tipo:
“avísame si
/api/v1/chat/answersupera $50 en una hora”.
Eso debes construirlo con tus propios logs y consultas.
Sin atribución por cliente
Si vendes SaaS B2B con funciones de IA, necesitas responder:
“¿cuánto me cuesta el cliente X este mes?”
Sin ese dato, no puedes calcular margen bruto por cliente ni decidir cuotas, precios o upsells.
Las claves por proyecto ayudan, pero no resuelven todo
Las claves de proyecto permiten separar uso por proyecto, pero no por función, cliente o ruta. La API de uso de OpenAI devuelve datos agregados por proyecto, no por solicitud.
El patrón es claro: el panel nativo responde una pregunta financiera. Tú necesitas responder una pregunta de producto.
Modelo de datos para atribución de costos
Cada solicitud a OpenAI debe generar un evento etiquetado. Ese evento es tu unidad de análisis.
Esquema mínimo recomendado:
| Columna | Tipo | Ejemplo | Por qué importa |
|---|---|---|---|
request_id |
uuid | 7a91... |
Idempotencia, deduplicación, reintentos |
timestamp |
timestamptz | 2026-05-06T14:23:01Z |
Series temporales y anomalías |
feature |
text | soporte-chat |
Función del producto |
route |
text | /api/v1/chat/answer |
Ruta HTTP o job |
customer_id |
text | cliente_4291 |
Gasto por cliente |
environment |
text |
prod, staging, dev
|
Separar costo interno de costo de cliente |
model |
text |
gpt-5.5, gpt-5.4-mini
|
El precio depende del modelo |
prompt_tokens |
int | 15234 |
Tokens de entrada |
completion_tokens |
int | 812 |
Tokens de salida |
reasoning_tokens |
int | 4500 |
Tokens de razonamiento facturados como salida |
cached_tokens |
int | 12000 |
Tokens cacheados |
latency_ms |
int | 2341 |
Correlación costo/experiencia |
cost_usd |
numeric(10,6) | 0.045672 |
Costo calculado |
prompt_cache_key |
text | sistema-v3 |
Seguimiento de caché |
error_code |
text |
null, 429
|
Evitar doble conteo en reintentos |
Calcula el costo cuando escribes el evento, no al consultar. Los precios pueden cambiar; el evento debe conservar la tarifa aplicada cuando ocurrió la solicitud.
Ejemplo en Python:
PRICING = { # USD por 1M de tokens, a partir de mayo de 2026
"gpt-5.5": {"input": 5.00, "cached": 2.50, "output": 30.00},
"gpt-5.5-pro": {"input": 30.00, "cached": 15.00, "output": 180.00},
"gpt-5.4": {"input": 2.50, "cached": 1.25, "output": 15.00},
"gpt-5.4-mini": {"input": 0.25, "cached": 0.125, "output": 2.00},
}
def compute_cost_usd(
model,
prompt_tokens,
cached_tokens,
completion_tokens,
reasoning_tokens
):
rates = PRICING[model]
uncached = max(0, prompt_tokens - cached_tokens)
input_cost = (uncached * rates["input"]) / 1_000_000
cache_cost = (cached_tokens * rates["cached"]) / 1_000_000
output_cost = (
(completion_tokens + reasoning_tokens) * rates["output"]
) / 1_000_000
return round(input_cost + cache_cost + output_cost, 6)
Los tokens de razonamiento cuentan como salida. La API los devuelve en:
usage.completion_tokens_details.reasoning_tokens
Súmalos a completion_tokens para calcular el costo. Si no lo haces, subestimarás el gasto en llamadas con razonamiento. Para ver la matemática completa, consulta el desglose de precios de GPT-5.5.
Wrapper de OpenAI con atribución
Todas las llamadas a OpenAI deberían pasar por una única función.
Ejemplo:
import time
import uuid
import json
import logging
from openai import OpenAI
client = OpenAI()
logger = logging.getLogger("llm.cost")
def call_with_attribution(
*,
feature,
route,
customer_id,
environment,
model,
messages,
**openai_kwargs
):
request_id = str(uuid.uuid4())
started = time.time()
error_code = None
response = None
try:
response = client.chat.completions.create(
model=model,
messages=messages,
**openai_kwargs
)
except Exception as e:
error_code = getattr(e, "code", "unknown_error")
raise
finally:
latency_ms = int((time.time() - started) * 1000)
u = response.usage if response else None
prompt_tokens = getattr(u, "prompt_tokens", 0)
completion_tokens = getattr(u, "completion_tokens", 0)
cached_tokens = (
getattr(
getattr(u, "prompt_tokens_details", None),
"cached_tokens",
0
) or 0
)
reasoning_tokens = (
getattr(
getattr(u, "completion_tokens_details", None),
"reasoning_tokens",
0
) or 0
)
cost_usd = compute_cost_usd(
model,
prompt_tokens,
cached_tokens,
completion_tokens,
reasoning_tokens
)
logger.info(json.dumps({
"event": "openai.request",
"request_id": request_id,
"feature": feature,
"route": route,
"customer_id": customer_id,
"environment": environment,
"model": model,
"prompt_tokens": prompt_tokens,
"completion_tokens": completion_tokens,
"reasoning_tokens": reasoning_tokens,
"cached_tokens": cached_tokens,
"latency_ms": latency_ms,
"cost_usd": cost_usd,
"error_code": error_code,
}))
return response
Ese wrapper es tu punto de control.
Cada función del producto lo llama. Cada llamada emite una línea JSON. Desde ahí, envía los logs a BigQuery, ClickHouse, Snowflake o Postgres usando tu pipeline existente: Vector, Fluent Bit, Logstash, OTLP collector o equivalente.
Para Node.js, el patrón es el mismo:
- envolver el SDK;
- recibir metadatos obligatorios;
- capturar
response.usage; - calcular
cost_usd; - emitir un evento JSON;
- publicarlo en stdout, Kafka, NATS, Pub/Sub o tu sistema de logs.
Implementación paso a paso
1. Reemplaza llamadas directas a OpenAI
Busca en tu base de código:
OpenAI(
client.chat.completions.create
Cada llamada directa debe convertirse en:
call_with_attribution(
feature="soporte-chat",
route="/api/v1/chat/answer",
customer_id=customer.id,
environment="prod",
model="gpt-5.5",
messages=messages,
)
Haz que feature, route, customer_id y environment sean obligatorios. No uses unknown como valor por defecto. Si falta un campo, lanza error.
2. Emite logs estructurados
Registra una línea JSON por solicitud:
{
"event": "openai.request",
"feature": "soporte-chat",
"route": "/api/v1/chat/answer",
"customer_id": "cliente_4291",
"environment": "prod",
"model": "gpt-5.5",
"prompt_tokens": 15234,
"completion_tokens": 812,
"reasoning_tokens": 4500,
"cached_tokens": 12000,
"latency_ms": 2341,
"cost_usd": 0.045672
}
Usa INFO para estos eventos y evita mezclarlos con logs de depuración.
3. Agrega por función en tu almacén de datos
Ejemplo de consulta:
SELECT
feature,
DATE_TRUNC(timestamp, DAY) AS day,
COUNT(*) AS requests,
SUM(cost_usd) AS spend_usd,
SUM(prompt_tokens + completion_tokens) AS tokens,
AVG(latency_ms) AS avg_latency_ms,
SUM(cached_tokens) / NULLIF(SUM(prompt_tokens), 0) AS cache_hit_rate
FROM openai_events
WHERE environment = 'prod'
AND timestamp >= TIMESTAMP_SUB(CURRENT_TIMESTAMP(), INTERVAL 30 DAY)
GROUP BY feature, day
ORDER BY day DESC, spend_usd DESC;
Con esto puedes ver qué función consume más presupuesto y cómo evoluciona en el tiempo.
4. Grafica gasto por ruta y cliente
Conecta Grafana, Metabase, Looker o Superset a la tabla y crea tres vistas:
- gasto por función en el tiempo;
- gasto por cliente en el tiempo;
- top 20 rutas por gasto de ayer.
Ese panel debería ser parte de tus operaciones diarias.
5. Prueba el wrapper con Apidog
Antes de desplegar, valida que el wrapper produce eventos correctos. Si el esquema está mal, tus dashboards mentirán.
Usa Apidog para probar el flujo extremo a extremo:
- Crea un escenario que llame a tu endpoint de IA con
customer_idyfeatureconocidos. - Captura la respuesta y el log emitido por stdout, OTLP o tu endpoint de logs.
- Agrega aserciones para verificar que el log incluye:
-
feature; -
route; -
customer_id; -
cost_usd > 0; -
prompt_tokens > 0.
-
- Ejecuta el mismo escenario en staging y producción usando variables de entorno.
- Reproduce solicitudes etiquetadas y valida que los reintentos no duplican costo.
Para enfoques más amplios de pruebas de API, consulta herramientas de prueba de API para ingenieros de control de calidad. Para combinar esto con un enfoque contract-first, revisa desarrollo de API "contract-first".
6. Configura límites de presupuesto y alertas
Crea claves de proyecto separadas por entorno o función:
prod-support-chatprod-summarizationstaging-all
Configura límites estrictos en OpenAI para que una función no pueda agotar todo el presupuesto de la organización.
Después, añade alertas propias desde tu almacén de datos. Por ejemplo:
alertar si una función supera 3 veces su gasto horario promedio móvil de 7 días.
Puedes enviar la alerta a PagerDuty, Opsgenie o Slack. El disparador debe venir de tus datos, no del panel de OpenAI.
Técnicas avanzadas
Caché de prompts
GPT-5.5 cobra el 50% de la tarifa de entrada por tokens cacheados. Para aprovecharlo:
- mantén el prompt del sistema estable;
- coloca variables por solicitud al final;
- rastrea
cache_hit_ratepor función; - alerta si una modificación de prompt reduce la tasa de acierto.
La documentación oficial de caché de prompts de OpenAI explica las reglas de elegibilidad.
API por lotes para trabajo offline
Todo lo que no necesita respuesta síncrona debería pasar por la API por lotes:
- resúmenes nocturnos;
- evaluaciones;
- reprocesamiento de documentos;
- backfills;
- embeddings offline.
Etiqueta esos eventos con batch_job_id para atribuirlos a la carga de trabajo original.
Ajuste del esfuerzo de razonamiento
GPT-5.5 Thinking usa niveles de reasoning.effort. Más esfuerzo implica más tokens de salida.
Audita tus funciones:
- ¿usas
mediumdondelowsería suficiente? - ¿la calidad mejora lo suficiente para justificar el costo?
- ¿puedes hacer A/B testing entre niveles?
Para más detalles, consulta cómo usar la API de GPT-5.5.
Disciplina en la ventana de contexto
Los prompts largos son caros. RAG con un presupuesto de recuperación ajustado suele ser mejor que meter toda la base de conocimiento en el contexto.
Rastrea:
AVG(prompt_tokens) BY feature
Si sube semana tras semana sin cambios funcionales, tu prompt se está inflando.
Cuidado con el umbral de 272K tokens
OpenAI aplica un multiplicador de entrada de 2x y un multiplicador de salida de 1.5x en solicitudes que superan los 272K tokens.
Agrega una guarda:
if prompt_tokens > 250_000:
logger.warning("Prompt cerca del umbral de 272K tokens")
Para detalles de precios, consulta la publicación sobre precios de GPT-5.5.
Límites de gasto por cliente
Si vendes B2B, necesitas cuotas por cliente.
Flujo recomendado:
- calcula gasto mensual por
customer_id; - consulta ese gasto antes de cada llamada;
- si supera la cuota, devuelve
429; - incluye un mensaje claro de límite mensual;
- ofrece una acción de upgrade o contacto con ventas.
Ejemplo:
{
"error": "ai_quota_exceeded",
"message": "Cuota mensual de IA excedida"
}
Esto convierte las funciones de IA de un riesgo de margen en una unidad de producto controlable.
Errores comunes
Evita estos patrones:
- contar tokens de razonamiento como entrada;
- confiar en el panel de OpenAI para alertas en tiempo real;
- etiquetar a nivel global del SDK en lugar del sitio de llamada;
- olvidar cron jobs, workers y webhooks;
- muestrear solicitudes;
- permitir
customer_id = null; - calcular costos con una tabla de precios desactualizada;
- no deduplicar reintentos;
- mezclar logs de costo con logs de debug.
Para jobs internos, usa rutas sintéticas:
cron:nightly-summarize
queue:image-caption
worker:document-indexing
Alternativas y herramientas
No siempre necesitas construir todo desde cero.
| Enfoque | Lo que hace bien | Lo que cuesta | Cuándo usar |
|---|---|---|---|
| API de uso de OpenAI | Nativa, sin configuración, precisa para conciliación | Gratis | Un proyecto, una función, sin atribución por cliente |
| Helicone | Proxy fácil, dashboards, caché, costos por usuario | Nivel gratuito; pago desde $20/mes | Quieres un panel alojado rápido |
| Langfuse | Código abierto, trazas + costo, autoalojado o cloud | Autoalojado gratis; cloud desde $29/mes | Quieres observabilidad open source |
| LangSmith | Integración con LangChain, evaluación + costo | Pago desde $39/usuario/mes | Ya usas LangChain |
| Almacén de datos propio | Control total, sin proxy, dimensiones personalizadas | Tiempo de ingeniería | Cargas grandes, compliance o residencia de datos |
Consideraciones:
- Un proxy añade un salto en la ruta crítica.
- Un stack autoalojado te da control, pero debes operarlo.
- Un almacén de datos propio se integra mejor con tu stack, pero tú mantienes consultas y alertas.
- La API de uso nativa sirve para conciliación, no para atribución granular.
Para más contexto, la guía de Helicone sobre seguimiento de costos de LLM explica el enfoque basado en proxy. La documentación de Langfuse sobre seguimiento de costos cubre la ruta open source.
Si operas esto a escala de plataforma, revisa plataformas de API para arquitectura de microservicios.
Casos de uso reales
SaaS B2B con gasto por cliente
Una empresa vende inteligencia de ventas. Cada cliente activa llamadas a GPT-5.5 al generar informes.
Sin atribución, solo sabe que gasta $80,000 al mes en OpenAI.
Con atribución por cliente, descubre que el 12% de los clientes genera el 71% del gasto. Con esos datos puede introducir:
- precios escalonados;
- cuotas suaves en planes bajos;
- cargos por exceso;
- upsells basados en uso real.
Herramientas internas para desarrolladores
Una organización da a cada desarrollador acceso a un asistente privado con GPT-5.5.
Usando customer_id = dev_email, plataforma detecta que tres desarrolladores concentran 50% del gasto. Dos tenían agentes automatizados corriendo en bucle. Desactivarlos ahorra $1,800 al mes.
El tercero sí tenía uso legítimo, así que recibe una cuota mayor basada en datos.
Forecast de nuevas funciones de IA
Un equipo de producto quiere lanzar una función de resumen. Para estimar costo, usa datos históricos:
- tokens promedio de prompt;
- tokens promedio de salida;
- llamadas esperadas por usuario activo;
- usuarios activos esperados.
Resultado:
$0.04 por usuario activo por día
$1.20 por usuario activo por mes
Con esa información, el equipo puede fijar el precio de la función en $5 por usuario al mes y justificar el margen.
Conclusión
No puedes gestionar lo que no puedes medir. El panel de facturación de OpenAI responde una pregunta financiera. La atribución por función, cliente y ruta responde la pregunta de producto.
Implementa el flujo así:
- etiqueta cada solicitud;
- calcula costo al escribir el evento;
- usa claves separadas por entorno o función;
- configura límites nativos en OpenAI;
- agrega alertas desde tu almacén de datos;
- valida el wrapper con Apidog;
- audita prompts, caché y esfuerzo de razonamiento periódicamente.
Descarga Apidog y úsalo para verificar tu wrapper de atribución de costos de extremo a extremo. Envía solicitudes etiquetadas, valida la carga útil del log y reproduce escenarios en distintos entornos antes de confiar en los dashboards.
Para lecturas relacionadas, consulta el desglose de precios de GPT-5.5 y la facturación de uso de GitHub Copilot para equipos de API.
Preguntas frecuentes
¿Los tokens de razonamiento cuentan como entrada o salida?
Como salida. La API los devuelve en:
usage.completion_tokens_details.reasoning_tokens
Súmalos a completion_tokens cuando calcules el costo. Para multiplicadores y precios, consulta el desglose de precios de GPT-5.5.
¿Qué tan preciso es response.usage frente al panel de OpenAI?
Los recuentos de tokens en response.usage coinciden con el panel. La desviación aparece si calculas costos con una tabla de tarifas desactualizada. Versiona tu tabla de precios y actualízala cuando OpenAI cambie tarifas.
¿Puedo hacer atribución solo con claves de proyecto?
Solo parcialmente. Las claves de proyecto dan una dimensión: proyecto. No dan función, cliente ni ruta. Úsalas para separar entornos y establecer límites; usa metadatos de aplicación para la atribución granular.
¿Qué pasa con reintentos y errores de rate limit?
Si una solicitud falla antes de ejecutar el modelo, normalmente no hay usage y no se registra costo. Si la solicitud sí se ejecuta y luego tu aplicación reintenta, puedes duplicar el costo si no deduplicas.
Usa el mismo request_id en reintentos idempotentes y deduplica al escribir.
¿Qué tan rápido devuelve datos la API de uso de OpenAI?
Tiene retraso de decenas de minutos. Úsala para conciliación mensual. Para alertas o interruptores de emergencia, usa tus propios eventos.
¿Debo muestrear solicitudes para reducir logs?
No. El volumen es pequeño: una línea JSON por solicitud. El muestreo rompe la atribución por cliente y ruta.
¿Funciona con otros proveedores de LLM?
Sí. Agrega una columna:
provider
Ejemplos:
openai
anthropic
google
deepseek
El wrapper cambia por proveedor, pero el almacén de datos y los dashboards pueden mantenerse. Para comparar precios, consulta precios de la API de DeepSeek V4.
¿Funciona para embeddings e imágenes?
Sí, pero la fórmula cambia.
- Embeddings: costo por token de entrada.
- Imágenes: costo por imagen y resolución.
Agrega una columna endpoint:
chat
embeddings
image
Después ramifica el cálculo de costos según el endpoint.
Top comments (0)