¿Cuál es el precio de la API de IA? Las tarifas de tokens y las tarifas de funciones deben separarse

Cuando muchas personas miran la lista de precios de la API de AI por primera vez, es más fácil centrarse en un número: cuánto por millón de tokens. Pero ahora el precio de la corriente principal

Las plataformas han superado durante mucho tiempo este nivel.

Además de la entrada, la entrada en caché y la salida, OpenAI también enumera tarifas de tipos de herramientas como búsqueda web y contenedores; Anthropic también separa el precio de token estándar, el almacenamiento en caché rápido, la búsqueda web, la ejecución de código, etc.; Google Gemini también enumera diferentes tarifas por entrada, salida, almacenamiento en caché de contexto, almacenamiento y conexión a tierra con la Búsqueda de Google.

Así que la visión realmente correcta no es "qué modelo es el más barato por millón de tokens", sino desglosar dos cosas primero:

El costo del token del modelo en sí

Los costos funcionales incurridos después de habilitar funciones adicionales

Mirándolo de esta manera, no juzgará mal un modelo que parece barato, ya que debe ser el más barato en uso real. El núcleo de su manuscrito original está aquí y lo organizaré más claramente en esta versión.

Primero dejemos claro: ¿Qué es la tarifa del Token?

El costo del token, en su forma más simple, es el costo de "cuánto lee y cuánto escupe".

Por ejemplo, la página de precios de OpenAI enumera la entrada, la entrada en caché y la salida por separado; Anthropic también separa los tokens de entrada base, las escrituras de caché, las visitas y actualizaciones de caché y los tokens de salida; Gemini también enumera la entrada y la salida por 1 millón de tokens, e incluso el almacenamiento en caché de contexto tiene un precio por separado según el precio del token y el precio de almacenamiento.

Esta capa esencialmente calcula: la carga de trabajo del propio modelo en el procesamiento de contenido.

Por ejemplo, si realizas estas tareas:

La facturación más básica suele comenzar aquí.

La tarifa del token son los tres campos más comúnmente vistos

El contenido que le das al modelo. Por ejemplo, mensaje, comando del sistema, contexto histórico, texto del archivo adjunto.

Entradas almacenadas en caché/Accesos de caché

Si la plataforma admite el almacenamiento en caché, las entradas reutilizadas pueden calcularse más económicas. La entrada en caché de OpenAI es significativamente menor que la entrada general; Los aciertos de caché de Anthropic también son significativamente menores que los de entrada base; Gemini separa el precio del almacenamiento en caché del contexto y el precio del almacenamiento.

El contenido que el modelo te devuelve. Esta es también la fuente de costos que más fácilmente subestiman muchos principiantes. GPT-5.4, mini y nano de OpenAI tienen precios unitarios de salida más altos que los de entrada; lo mismo ocurre con Sonnet 4.5 y Haiku 4.5 de Anthropic; En las listas de precios de múltiples modelos de Gemini, la producción también es generalmente mayor que los insumos.

¿Qué es la tarifa funcional?

La tarifa de función es el costo adicional que paga para que el modelo haga más cosas.

Este tipo de tarifa no se calcula necesariamente por token. Las unidades comunes pueden ser:

por búsqueda

por GB/día

por contenedor

por 1000 mensajes conectados a tierra

En otras palabras, la tarifa de la función no responde "cuánto cuesta leer y escribir texto para el modelo", sino:

¿Le ha pedido al modelo que busque, capture datos, ejecute herramientas, almacene en caché, abra contenedores y realice conexión a tierra?

Cómo ver los costos funcionales de OpenAI

La página de precios de OpenAI es muy típica.

Además de la entrada/entrada/salida almacenada en caché del modelo GPT en sí, también enumera:

Búsqueda web

La página de precios de OpenAI enumera llamadas de $10/1k y establece que los tokens de contenido de búsqueda son gratuitos. Esto significa que la búsqueda web en sí se cobra según la cantidad de llamadas, no solo la tarifa simbólica.

Contenedores

OpenAI también enumera los costos de los contenedores de forma independiente, como el precio de un contenedor de 1 GB y los métodos de fijación de precios de sesión en diferentes momentos. Esta no es una tarifa simbólica general, sino una tarifa del entorno de ejecución.

API por lotes

Aunque no se trata de una tarifa de herramienta, es un mecanismo de fijación de precios de la capa de servicios. La API Batch oficial de OpenAI permite una reducción del 50% en la entrada y salida. Esto significa que el costo del token es el mismo y el precio es diferente ya sea que use lotes o no.

Entonces, si está mirando el precio de OpenAI, no solo debe mirar el precio unitario del modelo, sino también si ha activado capas adicionales como búsqueda, contenedor o lote.

Cómo observar los costos funcionales de Anthropic

La lógica de precios de Anthropic también es muy adecuada como ejemplo, porque separa claramente el "costo simbólico" y el "costo de la herramienta".

Almacenamiento en caché rápido

En los precios de Claude API, enumere la entrada base, las escrituras de caché, las visitas de caché y las actualizaciones por separado. Esto muestra que el almacenamiento en caché rápido no es un concepto vago, sino un elemento de costo que ingresa oficialmente a la estructura de facturación.

Anthropic declara oficialmente: El uso de la búsqueda web se cobra además del uso del token, el precio es de $10 por cada 1000 búsquedas y el contenido del resultado de la búsqueda también se incluirá en el costo estándar del token. Esta oración es crucial porque prueba directamente que la misma solicitud puede tener tanto una factura simbólica como una factura de herramienta.

Ejecución de código

Los funcionarios de Anthropic también dividieron el costo de la herramienta de ejecución de código.

Cuando se combina con la búsqueda web/obtención web, no hay ningún cargo adicional por ejecución de código, y el exceso aún se calculará en función del tiempo de ejecución

Cada organización tiene 1550 horas libres por mes

El exceso es de $0,05 por hora, por contenedor

Esto generalmente le indica: el costo de la API de Claude no es solo entrada/salida, sino que también puede incluir tarifas de ejecución de la capa de herramientas.

Cómo ver las tarifas de función de Gemini

Lo mismo ocurre con Google Gemini, no solo con los tokens.

Almacenamiento y caché de contexto

La página de precios de Gemini enumera el precio del almacenamiento en caché de contexto y el precio de almacenamiento por separado. Por ejemplo, en varios modelos se puede ver que, además del precio del almacenamiento en caché de contexto, también hay precios de almacenamiento como 1,00 $/1.000.000 de tokens por hora. Esto significa que no sólo está pagando por el contenido de la caché en sí, sino que también puede estar pagando por el tiempo de retención de la caché.

Grounding with Google Search

La página de precios de Gemini enumera Grounding with Google Search en muchos lugares, generalmente con una cuota gratuita primero, seguida de solicitudes de conexión a tierra de $35/1000. Este no es un precio general de tokens, sino una tarifa independiente para la función de búsqueda.

Ejemplo de Gemini 2.5 Flash-Lite

Gemini 2.5 Flash-Lite se describe oficialmente como el modelo más pequeño y rentable, diseñado para uso a escala. Parece muy barato, pero si su proceso también utiliza caché de contexto, almacenamiento y conexión a tierra, la factura final no estará determinada únicamente por la entrada/salida del modelo.

¿Por qué estos dos gastos deben considerarse por separado?

Porque responden a dos preguntas completamente diferentes.

Respuestas del costo del token:

¿Cuánto le cuesta al modelo procesar este contenido?

La respuesta al costo de la función es:

¿Le ha pedido al modelo que busque, capture datos, ejecute herramientas, guarde caché y abra contenedores?

Si mezclas estas dos capas, es fácil sacar conclusiones equivocadas.

Por ejemplo, la entrada/salida de un determinado modelo es muy barata, pero su proceso utiliza mucha búsqueda web, conexión a tierra, búsqueda de archivos, ejecución de código o contenedores. Al final, la razón principal para aumentar la factura puede no ser el modelo en sí, sino la capa funcional.

Por otro lado, algunas tareas claramente solo requieren generación de texto puro, pero si las comparas con un montón de costos de herramientas, tu juicio se distorsionará.

Tres plataformas, tres métodos de juicio típicos

Si miras OpenAI

Lo que más fácilmente se pasa por alto es que además del precio unitario del modelo, también existen elementos como búsqueda web, contenedores y lotes; pero la entrada almacenada en caché puede reducir los costos de entrada. Por lo tanto, la comparación de precios de OpenAI no solo debe considerar la entrada/salida del modelo, sino también si utiliza muchas herramientas y si tiene caché.

Si nos fijamos en Anthropic

la atención suele centrarse en: qué cosas simplemente agregan tokens y qué cosas cobrarán tarifas adicionales.

Por ejemplo, la búsqueda web agrega $10 por cada 1000 búsquedas y se agrega un token; La ejecución del código se puede calcular en función de la hora del contenedor. En este caso, si solo miras la entrada/salida de Sonnet o Haiku, el juicio será incompleto.

Si miras a Gemini

lo que más fácilmente se pasa por alto es: no solo cuenta tokens, sino que también recopila el almacenamiento en caché de contexto, el almacenamiento y la conexión a tierra por separado. Esto significa que es probable que el proyecto de ley de Gemini incluya:

Costo del token del modelo

costo de caché

costo de almacenamiento de caché

costo de conexión a tierra

¿Cómo se comparan los novatos para que no sean fácilmente malinterpretados?

El enfoque más práctico es hacerlo en dos pasos.

El primer paso es calcular el costo puro del modelo

Es decir, primero calcule cuánto consumirá esta tarea:

tokens de entrada

tokens de salida

tokens almacenados en caché

costo de token descontado por lotes

Primero calcule "cuánto costará si solo ejecuta el modelo".

El segundo paso es agregar los costos de la función uno por uno

¿Hay búsqueda web?

¿Hay conexión a tierra?

¿Hay búsqueda/recuperación de archivos?

¿Hay ejecución de código?

¿Hay contenedores?

¿Hay almacenamiento en caché de contexto?

Este paso es lo que mucha gente realmente extraña. Porque una vez que la aplicación pasa de un simple chat a un asistente de búsqueda, RAG, flujo de trabajo del agente o proceso multimodal, el costo funcional a menudo ya no es una cifra pequeña.

¿Qué tareas es más probable que pasen por alto los costos funcionales?

El primer tipo: aplicación de búsqueda

Crees que solo estás haciendo preguntas modelo, pero de hecho, la búsqueda web o la conexión a tierra se activan cada vez. OpenAI, Anthropic y Gemini claramente valoran dichas funciones de forma independiente.

Segundo tipo: base de conocimientos/proceso RAG

Este tipo de tarea a menudo utiliza búsqueda de archivos, almacenamiento en caché de contexto, almacenamiento en caché o una gran cantidad de mensajes repetidos. OpenAI tiene tarifas de capa de herramientas y contenedores, Gemini tiene almacenamiento y caché de contexto, y Anthropic tiene almacenamiento en caché rápido.

El tercer tipo: Agente basado en herramientas

Siempre que el modelo comience a ayudarlo a ejecutar herramientas, abrir contenedores, ejecutar programas y editar archivos, la estructura de costos será completamente diferente a la de la generación simple. La ejecución del código de Anthropic es un ejemplo típico.

El precio de la API AI no puede depender solo del Token. Una vista más precisa es:

Primero observe el costo de entrada/salida/caché del modelo en sí, y luego observe qué funciones adicionales de búsqueda, caché, almacenamiento, herramientas, contenedores o conexión a tierra utiliza.

El billete real suele estar compuesto por estas dos capas.

Entonces, cuando compares modelos la próxima vez, no preguntes simplemente “cuánto por millón de tokens”; Deberías preguntar más:

¿Es este precio una tarifa de modelo pura o también incluye tarifas de función?

Si lo miras de esta manera, no confundirás un modelo de apariencia barata con uno que es definitivamente el más rentable en el uso real.

¿El precio de la API de IA debería basarse primero en un millón de tokens?

No es suficiente. Además de las tarifas simbólicas, las principales plataformas ahora suelen tener tarifas adicionales por búsqueda, almacenamiento en caché, herramientas, contenedores o conexión a tierra.

¿Qué es más importante, la tarifa simbólica o la tarifa de función?

Ambos son importantes. Para tareas de generación pura de texto, la tarifa simbólica suele ser el núcleo; pero siempre que su proceso utilice búsqueda, uso de herramientas, conexión a tierra y ejecución de código, la tarifa de la función puede aumentar rápidamente.

¿La búsqueda web de OpenAI se cuenta como tarifa de token o función?

La página de precios de OpenAI lo enumera directamente como llamadas de $10/1k, y los tokens de contenido de búsqueda son gratuitos, por lo que es una tarifa de función, no una tarifa general de token de entrada/salida.

¿Qué pasa con la búsqueda web de Anthropic?

La búsqueda web de Anthropic cuesta $ 10 por cada 1,000 búsquedas, y el contenido del resultado de la búsqueda también se incluye en el costo estándar del token, por lo que tiene tanto una tarifa de función como una tarifa de token.

¿Por qué es fácil pasar por alto el almacenamiento en caché de contexto de Gemini?

Porque Gemini no solo cuenta el precio del token de almacenamiento en caché de contexto, sino también el precio de almacenamiento. Es fácil subestimar la factura general si sólo nos fijamos en la entrada/salida.

¿Quién es más probable que pase por alto las tarifas funcionales?

Los más comunes son personas que trabajan como asistentes de búsqueda, RAG, bases de conocimiento, agentes de herramientas y flujos de trabajo de varios pasos. Porque estos sistemas a menudo no solo generan modelos, sino que también están equipados con búsqueda, caché, ejecución de herramientas y llamadas de datos externos.

Fuente de datos y declaración de credibilidad

Este artículo está compilado y escrito en base a las páginas oficiales de precios y los documentos oficiales de las principales plataformas de IA, centrándose en las siguientes fuentes:

OpenAI | Precios de API | | | Antrópico | Precios | | La lista de precios es una forma fácil de leer. La dirección de su manuscrito original es correcta. Esta versión mía es para organizarla en una versión más completa que se pueda subir directamente al sitio web.

Si desea ver contenido más amplio desde el principio, puede ir directamente a AI Token.

Este artículo pertenece a la categoría "Tarifas de tokens AI".

Esta categoría organiza principalmente precios de tokens AI, tarifas de tokens AI, métodos de precios de modelos, estructuras de facturación de plataformas, diferencias de tarifas funcionales y lógica de interpretación de costos para ayudar a los principiantes, creadores de contenido, destinatarios de casos y empresas cuando entran en contacto con las API de AI, no solo a mirar el precio unitario superficial, sino a comprender realmente de qué están compuestas las facturas.

¿Cuál es el precio del token AI? Los novatos primero deben comprender de dónde provienen las tarifas

¿Cuáles son los métodos de facturación de AI Token? No todas las plataformas son iguales

¿Cómo calcular el costo del AI Token? Se puede ver claramente desde la entrada y la salida por separado

¿Cómo ver la facturación de Claude Token? Qué escenarios de uso son adecuados

Precios de API

Precio de API de AI

AI Token organiza los conceptos básicos, métodos de cálculo, tarifas de API y comparaciones de modelos de AI Token (elementos de palabras) y cubre modelos comunes como ChatGPT, Gemini, Claude, etc. para ayudarlo a establecer una comprensión clara y un juicio más rápido.

¿Cuál es el precio de la API de IA? Las tarifas de tokens y las tarifas de funciones deben separarse