Amazon SageMaker Clarify

Evalúe los modelos y explique sus predicciones

¿Qué es Amazon SageMaker Clarify?

Beneficios de SageMaker Clarify

Evalúe automáticamente los FM para su caso de uso de IA generativa con métricas como la precisión, la solidez y la toxicidad para respaldar su iniciativa de IA responsable. Para obtener criterios o contenido matizado que requiera un juicio humano sofisticado, puede optar por aprovechar su propio personal o utilizar personal proporcionado por AWS para revisar las respuestas de los modelos.
Explique cómo las características de entrada contribuyen a las predicciones del modelo durante el desarrollo y la inferencia del modelo. Evalúe su FM durante la personalización mediante las evaluaciones automáticas y basadas en humanos.
Genere métricas, informes y ejemplos fáciles de entender a lo largo del flujo de trabajo de personalización de FM y MLOps.
Detecte posibles sesgos y otros riesgos, según lo prescrito en directrices como la ISO 42001, durante la preparación de los datos, la personalización del modelo y en los modelos implementados.

Evalúe los modelos básicos

Asistente de evaluación e informes

Para iniciar una evaluación, seleccione el modelo, la tarea y el tipo de evaluación: informes automáticos o humanos. Aproveche los resultados de la evaluación para seleccionar el mejor modelo para su caso de uso y cuantificar el impacto de sus técnicas de personalización de modelos, como la ingeniería de peticiones, el aprendizaje por refuerzo a partir de la retroalimentación humana (RLHF), la generación aumentada de recuperación (RAG) y los ajustes de precisión supervisados (SFT). Los informes de evaluación resumen las puntuaciones en múltiples dimensiones, lo que permite hacer comparaciones y tomar decisiones con rapidez. Los informes más detallados proporcionan ejemplos de los resultados del modelo con la puntuación más alta y más baja, lo que permite que se centre en dónde debe optimizar aún más.
Asistente de evaluación e informes

Personalización

Empiece rápidamente con conjuntos de datos seleccionados, como Crows-pairs, TriviaQA y WikiText, y algoritmos seleccionados, como Bert-Score, Rouge y F1. Puede personalizar sus propios conjuntos de datos de solicitudes y algoritmos de puntuación específicos para su aplicación de IA generativa. La evaluación automática también está disponible como biblioteca de código abierto en GitHub para que pueda ejecutarla en cualquier lugar. Los cuadernos de ejemplo muestran cómo ejecutar la evaluación de manera programática para cualquier FM, incluidos los modelos que no están alojados en AWS, y cómo integrar las evaluaciones de los FM con los MLOps de SageMaker y las herramientas de gobernanza, como las canalizaciones de SageMaker, el registro de modelos de SageMaker y las tarjetas de modelos de SageMaker.
Personalización

Evaluaciones basadas en humanos

Algunos criterios de evaluación son matizados o subjetivos y requieren el juicio humano para evaluarlos. Además de las evaluaciones automatizadas basadas en métricas, puede pedir a las personas (ya sean sus propios empleados o un equipo de evaluación administrado por AWS) que evalúen las salidas del modelo en aspectos como la utilidad, el tono y la adhesión a la voz de la marca. Los evaluadores humanos también pueden comprobar la coherencia con las directrices, la nomenclatura y la voz de la marca específicas de la empresa. Configure instrucciones personalizadas para dar instrucciones a su equipo de evaluación sobre cómo evaluar las solicitudes, por ejemplo, clasificándolas o indicando los pulgares hacia arriba o hacia abajo.
Evaluaciones basadas en humanos

Evaluaciones de calidad de modelos

Evalúe su FM para determinar si proporciona respuestas de gran calidad para su tarea específica de IA generativa mediante evaluaciones automáticas o humanas. Evalúe la precisión del modelo con algoritmos de evaluación específicos, como Bert Score, Rouge y F1, diseñados para tareas específicas de IA generativa, como el resumen, la respuesta a preguntas (Q&A) y la clasificación. Compruebe la solidez semántica de la salida de su FM cuando se hagan solicitudes con alteraciones en las entradas que preserven la semántica, como ButterFingers, mayúsculas aleatorias y la eliminación o el agregado de espacios en blanco.
Evaluaciones de calidad de modelos

Evaluaciones de responsabilidad de modelos

Evalúe el riesgo de que su FM codifique estereotipos según las categorías de raza o color, género o identidad de género, orientación sexual, religión, edad, nacionalidad, discapacidad, apariencia física y estatus socio-económico mediante evaluaciones automáticas o humanas. También puede evaluar el riesgo de contenido tóxico. Estas evaluaciones se pueden aplicar a cualquier tarea que implique la generación de contenido, incluida la generación abierta, el resumen y la respuesta a preguntas.

Evaluaciones de responsabilidad de modelos

Predicciones de modelos

Explique las predicciones del modelo

SageMaker Clarify está integrado con Experimentos de SageMaker con el fin de proporcionar puntuaciones que detallan qué características contribuyeron más a la predicción del modelo en una entrada particular para modelos tabulares, de procesamiento de lenguaje natural (NLP) y de visión artificial. Para los conjuntos de datos tabulares, SageMaker Clarify también puede producir un gráfico de importancia de características agregadas que proporciona información sobre el proceso de predicción general del modelo. Estos detalles pueden ayudar a determinar si la entrada de un modelo en particular posee más influencia de la que debería tener en el comportamiento general del modelo.
Captura de pantalla de un gráfico de importancia de características para un modelo formado en SageMaker Experiments

Monitoreo de cambios del comportamiento en el modelo

Los cambios en los datos en vivo pueden exponer un nuevo comportamiento del modelo. Por ejemplo, un modelo de predicción del riesgo crediticio formado en los datos de una región geográfica podría cambiar la importancia que asigna a varias características cuando se aplica a los datos de otra región. SageMaker Clarify está integrado con el Monitor de modelos de SageMaker para notificarle mediante sistemas de alerta como CloudWatch si la importancia de las características de entrada cambia y provoca un cambio en el comportamiento del modelo.
Captura de pantalla del monitoreo de importancia de características en SageMaker Model Monitor

Detecte sesgos

Identificación de desajustes en los datos

SageMaker Clarify ayuda a identificar posibles sesgos durante la preparación de los datos sin necesidad de escribir código. Tiene que especificar las características de entrada, como el género o la edad, y luego SageMaker Clarify ejecuta un trabajo de análisis para detectar posibles sesgos en esas características. Luego, SageMaker Clarify proporciona un informe visual con una descripción de las métricas y medidas del sesgo potencial para que pueda identificar los pasos para corregir el sesgo. En caso de desequilibrios, puede usar SageMaker Data Wrangler para equilibrar sus datos. SageMaker Data Wrangler ofrece tres operadores de equilibrio: submuestreo aleatorio, sobremuestreo aleatorio y SMOTE para volver a equilibrar los datos en los conjuntos de datos desequilibrados.

Captura de pantalla de las métricas de sesgos durante la preparación de los datos en SageMaker Data Wrangler

Verificación de sesgos en el modelo entrenado

Una vez que entrene su modelo, puede ejecutar un análisis de sesgo de SageMaker Clarify a través de los Experimentos de Amazon SageMaker para verificar si este tiene un sesgo potencial, como predicciones que producen un resultado negativo con más frecuencia para un grupo que para otro. Especifique las características de entrada con respecto a las cuales desea medir el sesgo en los resultados del modelo, y SageMaker ejecutará un análisis y le proporcionará un informe visual que identifica los diferentes tipos de sesgo por cada característica. El método de código abierto de AWS Fair Bayesian Optimization puede ayudar a mitigar el sesgo al ajustar los hiperparámetros de un modelo.

Captura de pantalla de las métricas de sesgos de un modelo entrenado en SageMaker Experiments

Supervise su modelo implementado para detectar sesgos

El sesgo se puede introducir o exacerbar en los modelos de ML implementados cuando los datos de formación difieren de los datos en directo que el modelo ve durante la implementación. Por ejemplo, los resultados de un modelo para predecir los precios de la vivienda pueden estar sesgados si los tipos hipotecarios usados para formar el modelo difieren de los tipos hipotecarios actuales. Las capacidades de detección de sesgos de SageMaker Clarify están integradas en el Monitor de modelos de Amazon SageMaker, de modo que, cuando SageMaker detecta sesgos más allá de un determinado umbral, genera métricas de manera automática que se pueden ver en Amazon SageMaker Studio y a través de las métricas y alarmas de Amazon CloudWatch.

Captura de pantalla del monitoreo de sesgos en SageMaker Model Monitor

Novedades

  • Fecha (de más reciente a más antigua)
No se encontraron resultados
1