Qu'est ce que la préparation des données ?
La préparation des données est le processus de préparation des données brutes afin qu'elles soient adéquates pour un traitement et une analyse approfondis. Les étapes clés comprennent la collecte, le nettoyage et l’étiquetage de données brutes au format adéquat pour les algorithmes de machine learning (ML), puis l’exploration et la visualisation des données. La préparation des données peut prendre jusqu'à 80 % du temps d'un projet de ML. L'utilisation d'outils spécialisés de préparation des données est nécessaire pour optimiser ce processus.
Quel est le lien entre le ML et la préparation des données ?
Les données fluctuent entre les organisations comme jamais auparavant. Elles proviennent de n'importe où, allant des smartphones aux villes intelligentes, sous forme de données structurées ou non structurées (images, documents, données géospatiales, etc.). À l'heure actuelle, les données non structurées représentent 80 % des données. Le ML peut non seulement analyser les données structurées, mais également découvrir des tendances dans les données non structurées. Le ML est le processus par lequel un ordinateur apprend à interpréter des données, ainsi qu'à prendre des décisions et à émettre des recommandations en fonction de ces données. Lors du processus d'apprentissage (et plus tard, lors de la définition de prédictions), les données incorrectes, orientées ou incomplètes peuvent entraîner des prédictions inexactes.
Pourquoi la préparation des données est-elle importante pour le ML ?
Les données alimentent le machine learning. Même si elle est complexe, la mobilisation de ces données pour réinventer votre activité est essentielle afin que vous restiez pertinent aujourd'hui et à l'avenir. Il s'agit là de la survie des plus informés. Ceux qui peuvent utiliser leurs données pour prendre des décisions meilleures et plus éclairées, réagissent plus rapidement face à l'inattendu et découvrent de nouvelles opportunités. Ce processus, important mais fastidieux, est une condition préalable à la conception de modèles et d'analyses de ML exacts. Il s'agit de la partie la plus longue d'un projet de ML. Afin de minimiser cet investissement en temps, les scientifiques des données peuvent utiliser des outils qui permettent d'automatiser la préparation des données de plusieurs manières.
Comment préparez-vous vos données ?
La préparation des données suit un ensemble d'étapes qui commence par la collecte des bonnes données, suivie par le nettoyage, l'étiquetage, puis la validation et la visualisation.
Collecter les données
La collecte des données est le processus de regroupement de toutes les données nécessaires pour le ML. Cette collecte peut-être fastidieuse, car les données résident dans de nombreuses sources de données : les ordinateurs portables, les entrepôts des données, le cloud, les applications et les appareils. Il peut-être difficile de trouver des moyens de se connecter à différentes sources de données. Les volumes de données augmentent également de manière exponentielle, il y a donc beaucoup de données à traiter. De plus, selon la source, les données se présentent sous un grand nombre de formats et de types différents. Par exemple, les données vidéo et les données tabulaires sont difficiles à utiliser ensemble.
Nettoyer les données
L'étape de nettoyage des données corrige les erreurs et complète les données manquantes afin d'assurer la qualité des données. Après le nettoyage, vous devez transformer les données en un format cohérent et lisible. Ce processus peut impliquer la modification des formats de champs, comme les dates et les devises, la modification des conventions de nommage et la correction de valeurs et d'unités de mesure à des fins de cohérence.
Étiqueter les données
L'étiquetage des données est le processus consistant à identifier des données brutes (images, fichiers texte, vidéos, etc.) et à ajouter une ou plusieurs étiquettes informatives et pertinentes pour apporter du contexte qui va renseigner le modèle de ML. Les étiquettes peuvent, par exemple, indiquer si une photo contient un oiseau ou une voiture, quels mots ont été mentionnés dans un enregistrement audio ou si une radiographie a décelé une anomalie. L'étiquetage des données convient à divers cas d'utilisation, notamment la vision par ordinateur, le traitement du langage naturel et la reconnaissance vocale.
Valider et visualiser
Souvent, après le nettoyage et l'étiquetage des données, les équipes de ML explorent les données afin de s'assurer qu'elles sont correctes et prêtes pour le ML. Les visualisations telles que les histogrammes, les nuages de points, les boîtes à moustaches, les graphiques en courbes et à barre sont des outils utiles pour confirmer l'exactitude des données. De plus, les visualisations aident également les équipes de science des données à réaliser l'analyse exploratoire des données. Ce processus a recours à des visualisations afin de découvrir des tendances, de détecter des anomalies, de tester une hypothèse ou de vérifier des suppositions. L'analyse exploratoire des données ne nécessite pas de modélisation formelle. Les équipes de science des données peuvent utiliser des visualisations pour déchiffrer les données.
Quelle aide peut apporter AWS ?
Les outils de préparation des données d'Amazon SageMaker permettent aux organisations d'obtenir des informations à partir des données structurées et non structurées. Par exemple, vous pouvez utiliser Amazon SageMaker Data Wrangler pour simplifier la préparation des données structurées grâce à des visualisations de données intégrées, via une interface visuelle sans code. SageMaker Data Wrangler comprend plus de 300 transformations intégrées pour que vous puissiez normaliser, transformer et combiner rapidement des fonctions sans rédiger de code. Vous pouvez également transférer vos transformations personnalisées dans Python ou Apache Spark, si vous préférez. Pour les données non structurées, vous avez besoin de grands jeux de données étiquetées, de haute qualité. Avec Amazon SageMaker Ground Truth Plus, vous pouvez créer des jeux de données d'entraînement de ML de haute qualité tout en réduisant les coûts d'étiquetage des données jusqu'à 40 %, sans avoir à créer des applications d'étiquetage ou à gérer une main-d'œuvre d'étiquetage par vous-même.
Les analystes et les utilisateurs professionnels qui préfèrent préparer les données dans un bloc-note peuvent parcourir, découvrir et utiliser de façon visuelle les environnements de traitement des données Spark qui s'exécutent sur Amazon EMR à partir des blocs-notes Amazon SageMaker Studio en quelques clics. Une fois connecté, vous pouvez interroger, explorer et visualiser de manière interactive les données, ainsi qu'exécuter les tâches Spark à l'aide du langage de votre choix (SQL, Python ou Scala) pour créer des flux complets de ML et de préparation des données.