Introducción rápida a un proyecto de machine learning con Amazon SageMaker JumpStart
GUÍA DE INTRODUCCIÓN
Información general
Amazon SageMaker JumpStart ayuda a comenzar a utilizar machine learning (ML) de forma rápida y sencilla. Para comenzar rápidamente, SageMaker JumpStart brinda acceso a cientos de algoritmos integrados con modelos previamente entrenados de centros de modelos populares a través de la interfaz de usuario. Con el SDK para Python de SageMaker, puede seleccionar un modelo prediseñado del zoológico de modelos a fin de entrenar con datos personalizados o implementarlo en un punto de conexión de SageMaker para ejecutar inferencias. Para que sea más fácil comenzar, SageMaker JumpStart proporciona un conjunto de soluciones para los casos de uso más comunes, que se pueden implementar fácilmente con unos pocos clics. Las soluciones son totalmente personalizables y muestran el uso de las plantillas y las arquitecturas de referencia de AWS CloudFormation, de manera que pueda acelerar el proceso del ML.
Lo que aprenderá
En esta guía, aprenderá a hacer lo siguiente:
- Implementar un modelo previamente entrenado de SageMaker JumpStart.
- Ejecutar inferencias mediante el punto de conexión implementado desde SageMaker JumpStart.
Requisitos previos
Antes de comenzar esta guía, necesitará lo siguiente:
- Una cuenta de AWS: si aún no tiene una cuenta, siga la guía de introducción a la Configuración de su entorno para obtener una descripción general rápida.
Experiencia en AWS
Principiante
Tiempo de realización
15 minutos
Costo de realización
Consulte los precios de SageMaker para estimar el costo de este tutorial.
Requisitos
Debe iniciar sesión en una cuenta de AWS.
Servicios utilizados
Amazon SageMaker JumpStart
Última actualización
28 de junio de 2022
Caso de uso
Para este tutorial, implementará un modelo llamado “BERT Based Cased” que se ha entrenado previamente en texto en inglés de wikipedia y funciona bien en casos de uso de clasificación de texto.
Paso 1: configurar el dominio de Amazon SageMaker Studio
Una cuenta de AWS solo puede tener un dominio de SageMaker Studio por región de AWS. Si ya tiene un dominio de SageMaker Studio en la región Este de EE. UU. (Norte de Virginia), siga la guía de configuración de SageMaker Studio para adjuntar las políticas de AWS IAM requeridas a su cuenta de SageMaker Studio; luego omita el paso 1 y continúe directamente con el paso 2.
Si no tiene un dominio de SageMaker Studio existente, continúe con el paso 1 a fin de ejecutar una plantilla de AWS CloudFormation que cree un dominio de SageMaker Studio y agregue los permisos necesarios para el resto de este tutorial.
Elija el enlace de la pila de AWS CloudFormation. Este enlace abre la consola de AWS CloudFormation y crea su dominio de SageMaker Studio y un usuario denominado studio-user. También agrega los permisos necesarios a su cuenta de SageMaker Studio. En la consola de CloudFormation, confirme que Este de EE. UU. (Norte de Virginia) sea la región que se muestra en la esquina superior derecha. El nombre de la pila debe ser CFN-SM-IM-Lambda-Catalog y no debe cambiarse. Esta pila tarda unos 10 minutos en crear todos los recursos.
Esta pila asume que ya tiene una VPC pública configurada en su cuenta. Si no tiene una VPC pública, consulte VPC con una única subred pública para obtener información sobre cómo crear una VPC pública.
Seleccione I acknowledge that AWS CloudFormation might create IAM resources (Acepto que AWS CloudFormation podría crear recursos de IAM) y luego elija Create stack (Crear pila).
En el panel de CloudFormation, elija Stacks (Pilas). Cuando se crea la pila, su estado debería cambiar de CREATE_IN_PROGRESS a CREATE_COMPLETE.
Ingrese SageMaker Studio en la barra de búsqueda de la consola de CloudFormation y luego seleccione SageMaker Studio.
Elija US East (N. Virginia) (Este de EE. UU. [Norte de Virginia]) de la lista desplegable Region (Región) en la esquina superior derecha de la consola de SageMaker. En Launch app (Lanzar aplicación), seleccione Studio para abrir SageMaker Studio con el perfil studio-user.
Paso 2: crear una nueva ventana de inicio e iniciar JumpStart
Comenzar con el machine learning puede ser un desafío, desde saber qué modelos se adaptan a cada caso de uso hasta saber por dónde empezar. Amazon SageMaker JumpStart resuelve este problema al proporcionar un conjunto de soluciones para los casos de uso más comunes que se pueden implementar fácilmente con solo unos pocos clics. Los modelos y soluciones previamente entrenados están a minutos de distancia de los puntos de conexión de implementación con capacidad de producción.
Para comenzar, debe abrir una nueva ventana de inicio haciendo clic en el ícono + en la parte superior de la vista de la ventana del archivo.
En la parte superior izquierda de la vista de inicio, haga clic en el botón JumpStart models, algorithms, and solutions (Modelos, algoritmos y soluciones de JumpStart). Esto iniciará SageMaker JumpStart y verá una nueva ventana con una amplia variedad de contenido destacado, soluciones, modelos, tipos de problemas y más. Para este tutorial, ejecutará el modelo previamente entrenado BERT Base Cased Text.
Para encontrar el modelo previamente entrenado, use la barra de búsqueda en la parte superior derecha y escriba BERT. Se mostrarán los modelos de BERT. Haga clic en el modelo titulado BERT Base Cased Text - Text Classification. Como alternativa, puede navegar por los modelos disponibles para encontrar el correcto.
El modelo BERT incluye la opción de implementar el modelo previamente entrenado tal cual o volver a entrenar el modelo. Para este tutorial, implementará el modelo previamente entrenado tal cual. Para comenzar, haga clic en el menú desplegable junto a Deployment Configuration (Configuración de implementación). A continuación, haga clic en el menú desplegable de SageMaker hosting instance (Instancia de alojamiento de SageMaker). Verá una serie de tipos de instancias, que corresponden a los recursos que se utilizarán para alojar el punto de conexión. Seleccione ml.m5.large. El segundo cuadro corresponde al nombre del punto de conexión. Mantenga el valor predeterminado y tenga en cuenta que puede cambiar el nombre del punto de conexión si es necesario.
Haga clic en la flecha en el siguiente menú desplegable etiquetado como Security Settings (Configuración de seguridad). Puede configurar roles de ejecución, conexión de VPC y cifrado. Para este tutorial, estos pasos no serán necesarios, pero tenga en cuenta que estas opciones existen y es probable que desee cambiarlas para una implementación de producción. Haga clic en la opción Deploy (Implementar) para comenzar a configurar el punto de conexión del modelo.
A continuación, verá un cuadro de diálogo que muestra el estado de implementación del modelo. Esta parte del proceso puede tomar de 5 a 10 minutos. El cuadro de diálogo cambiará para mostrar metadatos sobre el tipo de modelo, la tarea, el identificador del punto de conexión, el nombre del punto de conexión, el tipo de instancia, el número de instancias y la ubicación de los datos del modelo a medida que avanza el proceso. Una vez que se complete la implementación del punto de conexión, el estado del servicio debería actualizarse a In Service (En servicio).
Paso 3: usar el cuaderno de demostración provisto para consultar el nuevo punto de conexión de JumpStart
Ahora que ha implementado un punto de conexión de modelo, puede ejecutar inferencias contra él para recuperar predicciones. En esta parte del tutorial, ejecutará un breve cuaderno para consultar el punto de conexión creado en el paso anterior.
En este paso, utilizará el cuaderno de demostración proporcionado para probar el punto de conexión. Haga clic en el botón Open Notebook (Abrir cuaderno) para abrir el cuaderno. El cuaderno contiene código de Python para ejecutar dos ejemplos de texto a través del punto de conexión y ver los resultados del modelo. Este modelo predice una probabilidad de valor de sentimiento y una etiqueta predicha.
Para avanzar por el cuaderno, haga clic en el ícono Play (Reproducir) como se indica en la captura de pantalla. Como alternativa, también puede mantener presionada la tecla Shift (Mayús) y presionar Return (Volver) para avanzar por las celdas. Las etiquetas predichas y las probabilidades asociadas se imprimirán en la parte inferior de la celda.
Ha implementado un punto de conexión de modelo mediante el modelo BERT Base Cased Text - Text Classification previamente entrenado con un esfuerzo manual mínimo. ¡Felicitaciones!
Paso 4: eliminar los recursos de AWS
Una práctica recomendada es eliminar los recursos que ya no se utilizan para no incurrir en cargos no deseados.
Si usó un dominio existente de SageMaker Studio en el paso 1, omita el resto del paso 6 y vaya directamente a la sección de conclusión.
Si ejecutó la plantilla de CloudFormation en el paso 1 para crear un dominio de SageMaker Studio nuevo, continúe con los siguientes pasos a fin de eliminar el dominio, el usuario y los recursos creados por la plantilla de CloudFormation.
Para abrir la consola de CloudFormation, ingrese CloudFormation en la barra de búsqueda de la consola de AWS y elija CloudFormation en los resultados de búsqueda.
En el panel de CloudFormation, elija Stacks (Pilas). En la lista desplegable de estado, seleccione Active (Activo). En Stack name (Nombre de la pila), elija CFN-SM-IM-Lambda-catalog para abrir la página de detalles de la pila.
En la página de detalles de la pila CFN-SM-IM-Lambda-Catalog, elija Delete (Eliminar) para eliminar la pila junto con los recursos que creó en el paso 1.
Conclusión
Siguientes pasos
Entrenar un modelo de machine learning
Etiquetar los datos de entrenamiento para el machine learning