[Preview ]Agent Evaluation: Resumen

Nota importante: Esta función está disponible en Preview para clientes seleccionados. Durante la fase de Preview, se accede a AI Agent Evaluation desde la AI Agent Platform. En General Availability (GA), la experiencia se trasladará a CXA Operations Center (anteriormente AI Trainer).

 

Agent Evaluation es una función que le permite probar una AI Agent Orchestration frente a un conjunto de escenarios predefinidos y medir cómo se comporta el AI Agent. Esta diseñada para ayudar a las AI Agent Ops y a los Administradores a responder tres preguntas antes de implementar o promocionar una versión de un AI Agent a producción:

  • ¿El agente ha logrado los objetivos que el usuario solicitaba?

  • ¿Ha recurrido a las herramientas correctas, en el orden correcto y con los argumentos correctos?

  • ¿Se mantuvo dentro de su alcance permitido y ha seguido sus instrucciones?

Este artículo ofrece una guía general de la Agent Evaluation. Para ver las instrucciones paso a paso sobre cómo crear conjuntos de datos y ejecutar evaluaciones, consulte los artículos vinculados al final.

Conceptos básicos

Agent Evaluation se basa en tres conceptos: Dataset, Metric y Evaluation. Consulte la siguiente información para ver más información sobre cada uno.

 

Dataset

Un Dataset es una colección de casos de prueba que representan los escenarios que desea validar en su AI Agent Orchestration. Cada caso de prueba registra las entradas para enviar al Agente (o al usuario simulado), el comportamiento esperado y las referencias usadas para calificar el resultado.

Existen dos tipos de conjuntos de datos:

  • Simulated: Un LLM gestiona la parte de la conversación correspondiente al usuario, guiado por una Persona, un Goal e instrucciones de comportamiento. Útiles para flujos de varias interacciones: Reservas, comprobaciones de requisitos o resolución de problemas.

  • Scripted: La parte correspondiente al usuario consiste en una secuencia literal y predefinida de mensajes que se envía al Agente exactamente como se ha escrito. Útiles para pruebas de regresión deterministas: Respuestas a preguntas frecuentes, pruebas adversarias y preguntas y respuestas de una sola interacción.

Metric

Una Metric es una comprobación aplicada a cada caso de prueba cuando se ejecuta la evaluación. Cada métrica genera una puntuación por caso entre 0 y 1, además de una explicación del razonamiento. El producto es compatible con las siguientes métricas:

  • Goal Accuracy: ¿El AI Agent ha logrado el objetivo?

  • Answer Accuracy: ¿La respuesta del IA Agent coincide con la respuesta esperada?

  • Tool Call Accuracy: ¿El AI Agent ha recurrido a las herramientas correctas, en el orden correcto y con los argumentos correctos?

  • Guardrails: ¿El AI Agent ha identificado y bloqueado las solicitudes fuera de su alcance o los intentos de inyección de prompts?

  • Application Output Accuracy: ¿La salida al final del proceso de automatización coincide con la etiqueta de enrutamiento prevista?

  • Instruction Adherence: ¿El AI Agent ha seguido las reglas de comportamiento indicadas en su prompt?

Evaluation

Una Evaluation es una única ejecución. Vincula lo siguiente:

  • La AI Agent Orchestration y la versión que se va a probar.

  • El Dataset con el que se va a ejecutar.

  • El subconjunto de Metrics que se van a calcular.

Al finalizar la evaluación, los resultados se mostrarán en las cards de resumen (una por métrica) y en una tabla por caso de prueba.

 

El flujo de trabajo de Agent Evaluation

  1. Creación de un Dataset. Defina los escenarios, seleccione un tipo de conjunto de datos (Simulated o Scripted) y añada casos de prueba con los campos de referencia apropiados para las métricas que desea validar.

  2. Creación de una Evaluation. Seleccione la Orchestration, la versión, el conjunto de datos y las métricas que se deben calcular. Ejecute la evaluación.

  3. Lectura de los resultados. Revise el porcentaje de KPI por métrica, profundice en los casos de prueba individuales e investigue las cadenas de razonamiento cuando una métrica reciba una puntuación inferior a la esperada.

  4. Iteración. Ajuste las instrucciones del AI Agent, los prompts, las skills o la estructura de la Orchestration. Vuelva a ejecutar la misma evaluación con la nueva versión para confirmar que se ha resuelto la regresión.

 

Compatibilidad entre Dataset y Metric

No todas las métricas funcionan con todos los tipos de conjuntos de datos. Las reglas principales son las siguientes: 

Metric Simulated Scripted Notas
Goal Accuracy

Funciona con una o varias interacciones

Necesita datos de referencia para la evaluación

Tool Call Accuracy

Funciona con una o varias interacciones

Necesita datos de referencia para la evaluación

Answer Accuracy

Solo Scripted; solo una interacción

Necesita datos de referencia para la evaluación

Application Output Accuracy

Funciona con una o varias interacciones

Necesita datos de referencia para la evaluación

Instruction Adherence

Funciona con una o varias interacciones

No requiere referencia

Guardrails

Funciona con una o varias interacciones

No requiere referencia

Al seleccionar Compatible Metrics durante la creación de un conjunto de datos, la interfaz de usuario solo muestra las combinaciones válidas para ese tipo de conjunto de datos. Métricas que necesitan una referencia dentro del conjunto de datos.

 

Lectura de los resultados

Una vez completada la evaluación, haga clic en View en la fila de evaluación para abrir la página de resultados. La página de resultados muestra:

  • Cards de resumen: Una por cada métrica, con el porcentaje global del KPI y una etiqueta de aprobado o no aprobado.
  • Tabla de entradas: Cada caso de prueba con su veredicto por métrica.
  • Haga clic en View en cualquier fila para profundizar en la transcripción, el proceso de razonamiento, la información de la skill y el razonamiento por métrica.

Volver ""
Por favor, inicie sesión para enviar una solicitud.