
Evalua tus agentes creados con Copilot Studio con el AI Red Teaming Agent
Índice
En el panorama actual de la IA, que evoluciona rápidamente, garantizar la seguridad y fiabilidad de los sistemas de IA es fundamental. Un enfoque eficaz para lograrlo es el AI red teaming, una práctica recomendada en el desarrollo responsable de sistemas y funcionalidades que utilizan Grandes Modelos de Lenguage (LLMs).
En este artículo, mostraré brevemente el AI Red Teaming Agent y proporcionaré un ejemplo de cómo puede utilizarse para evaluar agentes creados con Copilot Studio.
¿Por qué AI Red Teaming?
AI Red teaming es crucial para descubrir e identificar posibles daños en los sistemas de IA. Aunque no sustituye al trabajo sistemático de medición y mitigación, los equipos de red teaming de IA desempeñan un papel vital al habilitar estrategias de medición para validar y amplificar la efectividad de las mitigaciones.
El AI Red teaming tiene como objetivo identificar riesgos potenciales, evaluar la superficie de riesgo y desarrollar una lista de problemas que puedan informar sobre lo que debe medirse y abordarse.
Los equipos de AI Red Teaming desempeñan un papel fundamental para garantizar que las soluciones basadas en IA cumplan con los principios de IA Responsable (RAI), como Equidad, Fiabilidad y Seguridad, Privacidad y Seguridad, e Inclusividad.

El AI Red Teaming Agent
El AI Red Teaming Agent aprovecha el framework open-source de Microsoft Python Risk Identification Tool (PyRIT), junto con las Evaluaciones de Riesgo y Seguridad de Azure AI Foundry. Puede que recuerdes PyRIT de mi anterior artículo.

Esta combinación ayuda a evaluar problemas de seguridad de tres maneras:
- Escaneos automáticos de riesgos de contenido simulando pruebas adversariales.
- Evaluando y puntuando cada par ataque-respuesta para generar métricas útiles como la Tasa de Éxito de Ataques (ASR).
- Generando una scorecard de las técnicas de ataque y categorías de riesgo para ayudar a decidir si el sistema está listo para su despliegue.

El AI Red Teaming Agent incluye prompts de prueba integrados para múltiples estrategias de ataque y categorías de riesgo, pero también permite usar prompts personalizados para probar tu sistema de IA.
El AI Red Teaming Agent está perfectamente explicado en este video por Minsoo Thigpen junto a Seth Juarez. Recomiendo encarecidamente verlo, ¡vale la pena!
Evaluando agentes de Copilot Studio
Para ilustrar la aplicación práctica del AI Red Teaming Agent y sus capacidades de personalización, he creado un ejemplo usándolo para probar un agente creado y publicado con Copilot Studio. Este ejemplo muestra cómo realizar una evaluación de riesgos y demuestra la efectividad del AI Red Teaming Agent para identificar y mitigar riesgos potenciales.
Puedes encontrar el ejemplo aquí, por favor descárgalo, pruébalo con tu propia implementación y ¡danos tu feedback!:
El notebook comienza con algunas instrucciones sobre cómo instalar los prerrequisitos y dependencias, y cómo proporcionar los secretos necesarios en tu entorno para conectar con los componentes requeridos (AI Foundry, Storage Account, agente de Copilot Studio, …).
Luego hay un nodo que permite probar rápidamente si la conectividad es correcta, y con suerte obtener un chiste divertido de Copilot 😊

Después de esta primera prueba, en la clase RedTeam decides las categorías de riesgo que quieres probar y el número de objetivos por categoría (sugiero elegir un número pequeño para pruebas, y luego aumentarlo al realizar evaluaciones reales):

Y usando esta clase se pueden ejecutar evaluaciones específicas especificando las estrategias de ataque, que pueden seleccionarse individualmente, en grupos, o combinadas:

El notebook también incluye instrucciones sobre cómo usar tus propios prompts, pero eso es demasiado para este artículo 😊
NOTA: Este ejemplo utiliza la librería Agents-for-Python, que actualmente está en early preview. El AI Red Teaming Agent también está en preview. Sin embargo, ambos componentes pueden integrarse y utilizarse eficazmente en su estado actual para obtener resultados valiosos.
Conclusión:
AI Red teaming es una práctica esencial en el desarrollo responsable de sistemas de IA. Al aprovechar el AI Red Teaming Agent para evaluar nuestros agentes de Copilot Studio, podemos asegurarnos de que nuestros sistemas de IA sean seguros, fiables y estén listos para su despliegue.
Más información:
Para más información sobre las herramientas e ideas utilizadas por el AI Red Teaming Agent, puedes consultar los siguientes recursos:
- Azure AI Risk and Safety Evaluations
- PyRIT: Python Risk Identification Tool
- Microsoft Copilot Studio
- AI Red Teaming Agent in Azure AI Foundry
- Responsible AI in Microsoft
- AI Red Teaming Agent Example (GitHub)
Publicado primero en LinkedIn, déjame un comenario para saber tu opinión!