Cos'è la preparazione dei dati?
La preparazione dei dati è un processo di preparazione di dati grezzi in vista delle successive fasi di elaborazione e analisi. Le fasi principali includono la raccolta, la pulizia e l'etichettatura dei dati grezzi nella forma più adatta per gli algoritmi di machine learning (ML) per poi esplorarli e visualizzarli. La preparazione dei dati può richiedere fino all'80% del tempo impiegato per un progetto ML. Utilizzare degli strumenti specializzati per la preparazione dei dati è importante per ottimizzare questo processo.
Qual è la connessione tra ML e la preparazione dei dati?
I dati fluiscono tra le organizzazioni come mai prima d'ora, arrivando da smartphone e città intelligenti, sia come dati strutturati che come dati non strutturati (immagini, documenti, dati geospaziali, e altri). I dati non strutturati costituiscono l'80% dei dati al giorno d'oggi. Il ML può analizzare non soltanto i dati strutturati, ma scoprire anche i pattern nei dati non strutturati. Il ML è il processo in cui un computer impara ad interpretare i dati e prendere decisioni e suggerimenti sulla base di quei dati. Durante il processo di apprendimento — e successivamente, quando sono utilizzati nel fare previsioni — i dati scorretti, distorti o incompleti possono dare luogo a previsioni imprecise.
Perché la preparazione dei dati è importante per il ML?
I dati alimentano il ML. Sfruttare questi dati per reinventare il proprio business, oltre ad essere difficile, è indispensabile per rimanere competitivi ora e nel futuro. Rispondere più velocemente all'imprevedibile e scoprire nuove opportunità è vitale per i più informati e per coloro che possono mettere i propri dati a lavoro per prendere decisioni migliori e più informate. Questo processo così importante, sebbene faticoso, è un prerequisito per la costruzione accurata di modelli e analisi di ML, ed è la parte più dispendiosa, in termini di tempo, di un progetto di ML. Per minimizzare questo investimento di tempo, i data scientist possono utilizzare degli strumenti li che aiutino ad automatizzare la preparazione dei dati in modi diversi.
Come si preparano i dati?
La preparazione dei dati segue una serie di fasi, a cominciare dalla raccolta dei dati corretti, seguiti dalla loro pulizia, etichettatura, e in seguito convalida e visualizzazione.
Raccolta dei dati
La raccolta dei dati è il processo di assemblaggio di tutti i dati necessari per il ML. La raccolta dati può essere noiosa, dal momento che i dati provengono da più origini di dati, inclusi laptop, data warehouse, cloud, applicazioni e dispositivi. Trovare modi per connettersi a diverse origini di dati può essere difficile. I volumi di dati stanno inoltre crescendo esponenzialmente, così che vi sono molti dati da ricercare. Inoltre, i dati hanno formati e tipologie ampiamente differenti in base all'origine. Per esempio, dati video e dati tabulari non sono semplici da utilizzare insieme.
Pulizia dei dati
La pulizia dei dati corregge gli errori e inserisce i dati mancanti, come fase necessaria per assicurare la qualità dei dati. Dopo aver ripulito i dati, sarà necessario convertirli in un formato coerente e leggibile. Questo processo può includere la modifica dei formati di campo, come date e valute, delle convenzioni di nomi, e la correzione di valori e unità di misura, così da renderli coerenti.
Etichettatura dei dati
L'etichettatura dei dati è il processo di identificazione dei dati non elaborati (immagini, file di testo, video, ecc.) e l'aggiunta di una o più etichette significative e informative per fornire il contesto, in modo che un modello di ML possa imparare da esso. Ad esempio, le etichette potrebbero indicare se una foto contiene un uccello o un'auto, quali parole sono state pronunciate in una registrazione audio o se una radiografia contiene un'irregolarità. L'etichettatura dei dati può essere utilizzata per vari casi d'uso, tra cui visione artificiale, elaborazione del linguaggio naturale e riconoscimento vocale.
Convalida e visualizzazione
Dopo che i dati sono stati ripuliti ed etichettati, i team di ML spesso li esplorano per assicurarsi che siano corretti e pronti per il ML. Le visualizzazioni come istogrammi, diagrammi a dispersione, diagrammi a scatola e baffi, grafici a linee e grafici a barre sono tutti strumenti utili a confermare la correttezza dei dati. Inoltre, le visualizzazioni aiutano i team di data science a completare l'analisi esplorativa dei dati. Questo processo utilizza le visualizzazioni per scoprire pattern, evidenziare anomalie, provare un'ipotesi o verificare delle supposizioni. L'analisi esplorativa dei dati non richiede modellazione formale; invece, i team di data science possono utilizzare le visualizzazioni per decifrare i dati.
In che modo AWS può aiutare?
Gli strumenti di preparazione dei dati di Amazon SageMaker aiutano le organizzazioni ad ottenere informazioni sia dai dati strutturati che da quelli non strutturati. Per esempio, puoi utilizzare Amazon SageMaker Data Wrangler per semplificare la preparazione dei dati strutturati con visualizzazioni di dati integrati, attraverso un'interfaccia visiva senza codice. SageMaker Data Wrangler contiene oltre 300 trasformazioni dei dati integrati, così è possibile normalizzare, trasformare e combinare rapidamente le caratteristiche senza dover scrivere alcun codice. Inoltre è possibile apportare le proprie trasformazioni personalizzate in Python o Apache Spark, se si preferisce. Per i dati non strutturati, sono necessari vasti set di dati etichettati di alta qualità. L'utilizzo di Amazon SageMaker Ground Truth Plus ti consente di creare facilmente set di dati di alta qualità per l’addestramento del ML riducendo i costi di etichettatura dei dati fino al 40%, senza dover costruire applicazioni di etichettatura o di gestire le forze lavoro per l'etichettatura personalmente.
Per gli analisti o utenti business che preferiscono preparare i dati in un notebook, è possibile sfogliare visivamente, rilevare e connettersi agli ambienti di elaborazione dei dati di Spark in esecuzione su Amazon EMR dai notebook Amazon SageMaker Studio in pochi click. Dopo la connessione, è possibile interrogare, esplorare e visualizzare i dati in modo interattivo ed eseguire i processi Spark utilizzando il linguaggio che si preferisce (SQL, Python o Scala) per costruire ogni fase della preparazione dei dati e dei flussi di lavoro di ML.