Funzionalità di Amazon SageMaker Ground Truth
Utilizza dati generati da esseri umani per personalizzare i modelli di fondazione (FM) su attività specifiche o con dati specifici aziendali e di settore
Perfezionamento supervisionato
Attraverso l'apprendimento supervisionato, i modelli ricevono esempi concreti di output desiderati. Questi esempi sono chiamati dati dimostrativi e permettono a un modello di imparare come rispondere a richieste, future e non viste, degli utenti. Con SageMaker Ground Truth Plus, un team di esperti annotatori AWS può generare nuovi dati dimostrativi di alta qualità in base alle istruzioni specifiche date dall'utente. Alcuni esempi di dati dimostrativi includono didascalie per immagini e video, riepiloghi di testo, risposte a domande e altro ancora. I dati dimostrativi possono essere utilizzati per personalizzare un FM esistente in base al proprio caso d'uso o per mettere a punto un modello creato da zero.
- Domanda e risposta: con le coppie di domande e risposte, è possibile preparare set di dati dimostrativi per addestrare il proprio modello linguistico di grandi dimensioni su come rispondere alle domande.
- Didascalia delle immagini: con le didascalie delle immagini, è possibile preparare set di dati che descrivono la scena e gli oggetti di un'immagine in dettaglio per addestrare modelli da testo a immagine in modo che creino immagini accurate e creative in linea con le proprie intenzioni. Possono anche essere usate per addestrare modelli da immagine a testo per fornire una descrizione accurata della scena dell'immagine.
- Sottotitolazione video: con la sottotitolazione dei video, è possibile preparare set di dati che descrivono le azioni e la scena di un video in maniera dettagliata per addestrare modelli testo-video. I dati di addestramento sulla sottotitolazione dei video di alta qualità consentono di ottenere video più accurati e creativi in linea con i propri obiettivi. Possono anche essere usati per addestrare modelli da video a testo che possano fornire una descrizione accurata del video.
Apprendimento per rinforzo basato sul feedback umano (RLHF)
Nell'apprendimento per rinforzo basato sul feedback umano (RLHF), un annotatore di dati può fornire feedback diretti e indicazioni sull'output generato da un modello classificando e/o valutando le sue risposte in base a un ordine di preferenza. I dati, denominati dati di confronto e classificazione, vengono quindi utilizzati per addestrare il modello. Un esempio di dati di confronto e classificazione include la classificazione delle risposte testuali dalle migliori alle peggiori in base a criteri quali accuratezza, pertinenza o chiarezza. È possibile utilizzare i dati di confronto e classificazione per personalizzare un FM esistente in base al proprio caso d'uso o per mettere a punto un modello creato da zero.
Seleziona il modello che più si adatta al tuo caso d'uso attraverso la valutazione umana
Valutazione di modelli
Utilizza il feedback umano per valutare e confrontare l'output dei modelli rispetto a un elenco personalizzabile di criteri per te più importanti (come accuratezza, pertinenza, tossicità, pregiudizio, messaggio del marchio e stile) e seleziona il modello più adatto al tuo caso d'uso. AWS offre diversi modi per iniziare a valutare subito i modelli. È possibile usufruire di un team gestito da AWS per valutare, confrontare e selezionare i modelli attraverso SageMaker Ground Truth. Inoltre, adesso è possibile accedere alle funzionalità di valutazione dei modelli tramite SageMaker Studio, SageMaker Jumpstart e Amazon Bedrock e permettere ai team interni di iniziare a valutare i modelli in pochi clic.
Red Teaming
Tenta deliberatamente di suscitare risposte dannose da un modello e rivedi sistematicamente gli output per scoprire eventuali vulnerabilità, migliorando la sicurezza, la solidità e l'affidabilità complessive.
Crea set di dati etichettati di alta qualità per l'addestramento dei modelli
Modelli di etichettatura predefiniti
Con SageMaker Ground Truth è possibile utilizzare più di 30 flussi di lavoro di etichettatura appositamente progettati per diversi casi d'uso di annotazioni di dati di immagini, video, testo e nuvole di punti 3D.
- Classificazione delle immagini: il flusso di lavoro di classificazione delle immagini consente di classificare le immagini in base a un set di etichette predefinito. La classificazione di immagini è utile per modelli di rilevamento di scene che devono prendere in considerazione il contesto completo dell'immagine. Ad esempio, è possibile costruire un modello di classificazione delle immagini
- Rilevamento degli oggetti nelle immagini: è possibile utilizzare il flusso di lavoro di rilevamento degli oggetti per identificare ed etichettare oggetti di interesse (ad esempio veicoli, pedoni, cani, gatti) contenuti nelle immagini. L'attività di etichettatura prevede il disegno di un riquadro di delimitazione, un riquadro bidimensionale (2D), attorno agli oggetti di interesse all'interno di un'immagine. I modelli di visione artificiale addestrati da immagini con cornici etichettate imparano che i pixel all'interno delle cornici corrispondono all'oggetto specificato.
- Segmentazione semantica delle immagini: è possibile utilizzare il flusso di lavoro per la segmentazione semantica per etichettare le parti esatte di un’immagine che corrispondono alle etichette che il modello deve acquisire. Offre dati di addestramento ad alta precisione poiché i singoli pixel sono etichettati. Ad esempio, la forma irregolare di un'auto in un'immagine potrebbe essere catturata con la segmentazione semantica in modo preciso.
- Rilevamento di oggetti nei video: con il flusso di lavoro per il rilevamento degli oggetti nei video, è possibile identificare gli oggetti di interesse all'interno di una sequenza di fotogrammi video. Ad esempio, nel caso di sviluppo di un sistema di percezione per un veicolo autonomo, è possibile rilevare la presenza di altri veicoli nelle vicinanze.
- Monitoraggio degli oggetti nei video: con il flusso di lavoro per il monitoraggio degli oggetti nei video, è possibile monitorare gli oggetti di interesse all’interno di una sequenza di fotogrammi video. Ad esempio, nel caso d’uso di un gioco sportivo, è possibile etichettare accuratamente i giocatori durante l'intera durata della partita.
- Classificazione delle clip video: con il flusso di lavoro di classificazione delle clip video è possibile classificare un file video all’interno di una categoria predefinita. Ad esempio, è possibile selezionare le categorie predefinite che meglio descrivono il video come una partita sportiva o un ingorgo stradale in un incrocio trafficato.
- Classificazione di testi: la classificazione di testi comporta la categorizzazione di stringhe di testo rispetto a un gruppo di etichette predefinito. Spesso viene utilizzata per modelli di elaborazione del linguaggio naturale (NLP) che identificano elementi quali argomenti (ad esempio descrizione di prodotti, recensioni di film) o sentimenti.
- Riconoscimento delle entità nominali: il riconoscimento delle entità nominali (Named Entity Recognition/NER) implica la vagliatura dei dati di testo per individuare locuzioni chiamate entità nominali e classificarle ognuna con un'etichetta, ad esempio “persona”, “organizzazione” o “marchio”.
- Rilevamento di oggetti nelle nuvole di punti 3D: con il flusso di lavoro per il rilevamento degli oggetti, è possibile identificare ed etichettare gli oggetti di interesse in una nuvola di punti 3D. Ad esempio, in un caso d'uso di un veicolo autonomo, è possibile etichettare veicoli, corsie e pedoni in modo accurato.
- Monitoraggio di oggetti nelle nuvole di punti 3D: con il flusso di lavoro per il monitoraggio degli oggetti, è possibile tenere traccia della traiettoria degli oggetti di interesse. Ad esempio, un veicolo autonomo deve tracciare il movimento di altri veicoli, corsie e pedoni.
- Segmentazione semantica delle nuvole di punti 3D: con il flusso di lavoro per la segmentazione semantica, è possibile segmentare i punti di una nuvola di punti 3D in categorie predefinite. Ad esempio, per i veicoli autonomi, Ground Truth potrebbe classificare la presenza di strade, fogliame e strutture.
Flussi di lavoro personalizzati
SageMaker Ground Truth consente di creare flussi di lavoro di etichettatura personalizzati. Un flusso di lavoro è composto da: (1) Un modello di interfaccia utente (IU) che fornisce agli etichettatori umani istruzioni e strumenti per completare l'attività di etichettatura. È disponibile un'ampia selezione di modelli di IU oppure è possibile caricare il proprio modello Javascript/HTML. (2) Qualsiasi logica di pre-elaborazione integrata in una funzione AWS Lambda. La funzione Lambda può distribuire i dati da etichettare con qualsiasi contesto aggiuntivo per l'etichettatore e (3) qualsiasi logica di post-elaborazione integrata in una funzione AWS Lambda, da utilizzare per inserire un algoritmo di miglioramento della precisione. L'algoritmo può valutare la qualità delle annotazioni effettuate da un essere umano o può trovare un consenso su ciò che è considerato "corretto" quando gli stessi dati vengono forniti a più etichettatori umani.
Controlli di qualità e consenso
SageMaker Ground Truth consente di garantire la qualità delle attività di annotazione implementando procedure di garanzia della qualità come l'impostazione dei flussi di lavoro per l'approvazione, la revisione e la modifica delle annotazioni, nonché l'indirizzamento delle attività, l'utilizzo della convalida automatica delle annotazioni e il monitoraggio delle metriche di qualità. Inoltre, è possibile creare un consenso all'interno del proprio flusso di lavoro consentendo a più persone di concordare il livello di accuratezza dei dati utilizzando algoritmi per gestire le revisioni delle attività.
Seleziona l'opzione di forza lavoro più adatta a te
Che tu voglia che AWS gestisca una forza lavoro per tuo conto o sfrutti una forza lavoro interna esistente, SageMaker Ground Truth offre diverse opzioni e flessibilità.
Forza lavoro gestita da AWS
SageMaker Ground Truth Plus può assumere e gestire una forza lavoro scalabile ed esperta nel settore per tuo conto. Ad esempio, potresti aver bisogno di un team esperto nell'etichettatura di file audio o con competenze linguistiche specifiche. Per casi d'uso più avanzati, potrebbe essere necessario un team di lavoro in grado di generare contenuti scritti per i dati dimostrativi. AWS è in grado di reclutare, assumere, formare e gestire team di qualsiasi dimensione per progetti di varia durata, in tutto il mondo. Una forza lavoro gestita da AWS può aiutarti a soddisfare i requisiti di sicurezza, privacy e conformità.
Forza lavoro interna privata
Se si dispone di un team interno di gestione dei dati, è possibile utilizzare gli strumenti e i flussi di lavoro di SageMaker Ground Truth per annotare i dati in una vasta gamma di casi d'uso. Questa opzione è consigliata se si desidera fare affidamento sull'esperienza del proprio team o se si possiedono determinati requisiti di riservatezza dei dati.
Il tuo fornitore preferito
È possibile selezionare un fornitore di annotazioni preferito dal Marketplace AWS per completare le attività in SageMaker Ground Truth. Ciò aiuta a ridurre il lavoro manuale di ricerca dei singoli lavoratori e di creazione di un team.
Crowd
Il crowdsourcing del proprio lavoro di annotazione tramite Amazon Mechanical Turk può essere un approccio conveniente e scalabile per progetti di piccole e grandi dimensioni. È possibile accedere a un gran numero di lavoratori disposti in aree geografiche diverse, progettare e iterare rapidamente le attività e adattare il flusso di lavoro alle proprie esigenze specifiche.
Accelera e automatizza le attività svolte da esseri umani nel ciclo di lavorazione, riducendo al contempo i costi
Strumenti di assistenza integrati
Usa gli strumenti di assistenza integrati di SageMaker Ground Truth per ridurre lo sforzo richiesto per applicare le etichette e aiutare i lavoratori a svolgere in modo efficiente le attività umane, risparmiando tempo e costi.
Pannelli di controllo interattivi
SageMaker Ground Truth Plus fornisce pannelli di controllo e interfacce utente interattive che consentono di monitorare l'andamento dei set di dati di addestramento in più progetti, tenere traccia delle metriche dei progetti, ad esempio la velocità di trasmissione effettiva giornaliera, analizzare la qualità delle etichette e fornire un feedback sui dati etichettati.