Una ventana de contexto es el número máximo de tokens que un modelo de lenguaje grande puede procesar en una sola solicitud, incluyendo toda la entrada (prompt de sistema, historial de conversación, contexto recuperado) y la salida (la respuesta generada). Representa la memoria de trabajo efectiva del modelo.
Cada LLM tiene un tamaño fijo de ventana de contexto:
La ventana de contexto debe contener todo lo que el modelo necesita para generar una respuesta: prompt de sistema, pasajes recuperados por RAG, historial de conversación y espacio para la salida. Cuando el total excede la ventana de contexto, el contenido debe truncarse o resumirse.
Para chatbots de soporte al cliente, gestionar la ventana de contexto implica equilibrar: - Suficiente contexto RAG para respuestas precisas (más contexto = más precisión) - Suficiente historial de conversación para continuidad (más historial = mejor multi-turno) - Espacio para una respuesta completa (muy poco espacio = respuestas truncadas) - Costes de tokens (más tokens en contexto = mayor coste por conversación)
En la práctica, context window debe evaluarse por lo que cambia en el flujo de soporte. Pregunta si mejora la precisión de las respuestas, reduce el trabajo repetido de los agentes, aclara las decisiones de transferencia o facilita los informes. Si la respuesta es solo "suena moderno", el concepto aún no es operativo.
Un ejemplo concreto es rag context allocation for accuracy: Para una pregunta factual como "¿cuál es su política de reembolso?", el sistema asigna el 60% de la ventana de contexto a pasajes RAG (recuperando 5-8 secciones relevantes de artículos) y el 10% al historial de conversación. Esto maximiza la probabilidad de incluir la respuesta correcta en el contexto.
La conclusión más sencilla es: La ventana de contexto es la capacidad total de tokens para entrada y salida en una sola solicitud de LLM
El tamaño de la ventana de contexto determina cuánta información puede considerar tu chatbot al generar una respuesta. Una ventana de contexto mayor permite más pasajes RAG, más historial de conversación e instrucciones de sistema más detalladas, generalmente produciendo mejores respuestas. Sin embargo, contextos más grandes también cuestan más y pueden aumentar la latencia.
No necesariamente. Aunque más contexto permite al modelo considerar más información, incluir pasajes irrelevantes puede reducir la calidad de respuesta (el problema de "perdido en el medio"). El contexto selectivo y de alta calidad suele superar a grandes volúmenes de contexto mediocre.
El sistema debe truncar o resumir contenido antiguo. Los chatbots bien diseñados usan un enfoque de ventana deslizante: resumen mensajes antiguos, conservan completos los recientes y siempre preservan el prompt de sistema y el contexto RAG fresco. Los sistemas mal diseñados simplemente cortan contenido y pierden contexto importante.
Un artículo de base de conocimiento tiene 3,000 tokens, pero solo hay 800 tokens de espacio de contexto disponibles. El sistema recupera solo la sección más relevante del artículo (el párrafo que coincide con la consulta) en lugar del artículo completo, encajando dentro de la ventana disponible.
Para la mayoría de casos de soporte al cliente, 32K tokens son suficientes. Esto aloja cómodamente un prompt de sistema (500 tokens), contexto RAG (2,000-4,000 tokens), 10-15 mensajes de conversación (2,000-3,000 tokens) y espacio para generar respuesta. Muy pocas conversaciones de soporte necesitan las ventanas de 128K+ disponibles en modelos modernos.
Sí. Las APIs de LLM cobran por token de entrada, así que llenar la ventana de contexto con más pasajes RAG o más historial de conversación aumenta directamente el coste por interacción. Por eso la gestión inteligente del contexto, seleccionando solo los pasajes más relevantes y resumiendo mensajes antiguos, es importante para optimizar costes.