Un token es la unidad fundamental de texto que procesan los modelos de lenguaje grandes. Los tokens son fragmentos de palabras, palabras completas o signos de puntuación que el modelo lee y genera. En inglés, un token equivale aproximadamente a 3/4 de una palabra, por lo que 100 palabras son aproximadamente 130-140 tokens.
Los LLM no procesan texto como caracteres o palabras; usan tokens. Un tokenizer divide el texto de entrada en tokens según patrones aprendidos de los datos de entrenamiento. Palabras comunes como "the" o "hello" son tokens únicos, mientras que palabras poco comunes se dividen en varios tokens ("tokenization" podría convertirse en "token" + "ization").
Los tokens importan por tres razones prácticas:
1. **Precios**: las APIs de LLM cobran por token (entrada + salida). Más tokens = mayor coste. 2. **Ventana de contexto**: cada modelo tiene un límite máximo de tokens para entrada y salida combinadas. Superarlo implica truncar contexto. 3. **Latencia**: más tokens de salida = mayor tiempo de respuesta, ya que los LLM generan un token a la vez.
Para una interacción típica de soporte al cliente: el prompt de sistema usa 200-500 tokens, el contexto RAG usa 500-2,000 tokens, la pregunta del cliente usa 20-100 tokens y la respuesta de IA usa 100-500 tokens.
En la práctica, token debe evaluarse por lo que cambia en el flujo de soporte. Pregunta si mejora la precisión de las respuestas, reduce el trabajo repetido de los agentes, aclara las decisiones de transferencia o facilita los informes. Si la respuesta es solo "suena moderno", el concepto aún no es operativo.
Un ejemplo concreto es cálculo de coste de tokens para una conversación de soporte: Una conversación típica de soporte con IA usa: 400 tokens (prompt de sistema) + 1,200 tokens (contexto RAG) + 50 tokens (pregunta del cliente) + 200 tokens (respuesta de IA) = 1,850 tokens. Con precios de GPT-5, esto cuesta aproximadamente 0.005 dólares por conversación, permitiendo miles de conversaciones con IA por unos pocos dólares, no cientos.
La conclusión más sencilla es: Los tokens son las unidades básicas de texto que procesan los LLM, aproximadamente 3/4 de una palabra en inglés
Entender los tokens es esencial para gestionar costes y rendimiento de chatbots con IA. El uso de tokens determina directamente tus costes mensuales de LLM, la velocidad de respuesta y cuánto contexto puede considerar la IA al generar respuestas. Sobrediseñar prompts o incluir demasiado contexto RAG desperdicia tokens y dinero sin mejorar la calidad de respuesta.
Una frase promedio en inglés de 15-20 palabras usa aproximadamente 20-27 tokens. El conteo exacto varía por vocabulario: las palabras comunes usan menos tokens, mientras que palabras técnicas o poco comunes usan más. La mayoría de proveedores de LLM ofrece herramientas gratuitas de tokenización para revisar conteos exactos.
Los tokens ofrecen un equilibrio entre procesamiento a nivel de caracteres (demasiado granular y lento) y procesamiento a nivel de palabras (demasiadas palabras únicas para gestionar eficientemente). La tokenización reduce el vocabulario a 50,000-100,000 tokens que pueden representar cualquier texto de forma eficiente, incluido código, números y varios idiomas.
Un equipo de soporte de alto volumen reduce sus costes de IA en un 40% al acortar el prompt de sistema de 800 a 300 tokens, limitar el contexto RAG a los 3 pasajes principales en lugar de 10 y definir una longitud máxima de respuesta de 200 tokens para respuestas simples de FAQ.
Las APIs de LLM cobran por cada 1,000 tokens (entrada y salida por separado). Los tokens de entrada (tu prompt + contexto) son más baratos que los tokens de salida (la respuesta de IA). Una conversación típica de soporte cuesta entre 0.003 y 0.01 dólares en tarifas de tokens. Precios de plataforma como Chatsy agrupan los costes de tokens en precios por conversación para presupuestar más fácilmente.
Sí. El inglés es el idioma más eficiente en tokens porque los LLM se entrenan principalmente con texto en inglés. Idiomas que usan escrituras no latinas (chino, japonés, coreano, árabe) pueden usar 2-3 veces más tokens para el mismo contenido semántico, lo que aumenta costes en despliegues multilingües.