Big data, data science, IA, machine learning, deep learning

Aujourd'hui, Hashbang vous propose une petite revue des concepts du monde de l'analyse de données. Utilisés à outrance par le monde de l'entreprise jusqu'à en devenir des buzzwords, il n'est pas toujours simple de comprendre ces notions qui s'entrecroisent souvent. Essayons de démêler tout ça.

Big data

Le big data, les mégadonnées ou les données massives, désigne les ressources d’informations dont les caractéristiques en termes de volume, de vélocité et de variété imposent l’utilisation de technologies et de méthodes analytiques particulières pour générer de la valeur, et qui dépassent en général les capacités d'une seule et unique machine et nécessitent des traitements parallélisés.
(source)

Pour mieux comprendre les enjeux derrière les 3V du Big data (volume, variété, vélocité), prenons l'exemple d'un réseau social bien connu. Dans un article de 2014, Facebook dit générer environ 4 petabytes (4 millions de gigabytes) de données par jour : c'est le premier V, le volume. Ces données sont très diverses, on y trouve du texte, des images, de l'audio ou des vidéos : c'est le deuxième V, la variété. Enfin, ces données doivent être collectées, agrégées, stockées et traitées très rapidement, Facebook exécute environ 600.000 requêtes et 1 million de traitements sur ces données par jour : c'est le troisième V, la vélocité.

Le big data demande donc le déploiement de moyens technologiques très spécialisés pour pouvoir tirer partie de ces données, notamment en terme de stockage et de calcul à haute performance.

Data Science

Pour comprendre ce qu'est la data science, ou science des données, il convient d'abord de se demander ce que sont les données. Les données sont des faits bruts et non organisés. Elles sont, dans l'absolu, dénuées de sens et c'est leur interprétation par un humain ou une machine qui va pouvoir leur en donner un. Lorsque ces données sont structurées, agrégées, et mises en contexte, on les transforme alors en informations exploitables. C'est là l'objectif de la data science : "identifier des tendances, des motifs, des connexions et des corrélations" (source) dans les données. Pour y parvenir, elle dispose d'un ensemble de méthodes :

  • programmation informatique,
  • visualisation (représentation graphique) des données,
  • outils statistiques,
  • modèles probabilistes,
  • apprentissage automatique
  • etc.

Imaginons qu'une entreprise collecte les données de consommation électrique d'une de ses usines avec une mesure prise toutes les 10 minutes pour chaque machine. Si on représente graphiquement ces données sous forme de série temporelle, et que l'on calcule quelques indicateurs statistiques, on peut déjà obtenir plusieurs informations, par exemple :

  • quelle est la consommation électrique minimale/maximale/moyenne de l'usine sur un certain intervalle de temps ? Et pour chaque machine ?
  • quelle est la machine qui consomme le plus/le moins ?
  • la consommation électrique est-elle périodique ?

Supposons maintenant que l'on repère un pic de consommation sur une machine donnée dans un intervalle de temps où l'usine n'est normalement pas en fonctionnement. Ces données seules ne permettront pas de comprendre l'origine de ce pic, il faut les mettre en contexte avec d'autres données, pour comprendre, par exemple, qu'une opération de maintenance a été réalisée sur cette machine à cette date. Une fois que les données sont bien comprises, on peut définir un modèle (statistique ou d'apprentissage automatique) pour détecter automatiquement les anomalies dans les données de consommation électrique.

Intelligence artificielle

L'intelligence artificielle est étonnamment difficile à définir. Il s'agit plus d'un "ensemble de concepts et de technologies" que d'une "discipline autonome constituée" (d'après la page wikipédia). Ce qui regroupe ces concepts et ces technologies, c'est leur objectif : simuler certains traits de l'intelligence humaine comme l'apprentissage ou le raisonnement.

Un système d'intelligence artificielle ne va donc pas forcément de pair avec un système d'apprentissage automatique. On peut citer, par exemple, les systèmes experts qui ont pour but de simuler le savoir-faire d'un expert dans un domaine précis en utilisant des connaissances fournies explicitement par des humains sous formes de règles et de faits.

Prenons un exemple simplifié, si nous avons défini une règle : "Si A est le père de B et B est le père de C, alors A est le grand-père de C" et que nous avons deux faits "Pierre est le père de Paul" et "Paul est le père de Jacques" alors à la question "qui est le grand-père de Jacques ?", le système saura inférer le fait "Pierre est le grand-père de Jacques". Dans la réalité, les systèmes experts fonctionnent évidemment avec des règles plus nombreuses et plus complexes qui peuvent s'enchaîner pour produire de nouveaux faits jusqu'à trouver, ou non, la réponse souhaitée.

Machine Learning et Deep Learning

Le machine learning, ou apprentissage automatique, est la discipline qui s'attache à donner à un programme la capacité d'apprendre des données, c'est-à-dire "améliorer leurs performances à résoudre des tâches sans être explicitement programmés pour" (source wikipédia). Cette définition est très large et regroupe des algorithmes aux objectifs et aux fonctionnements très variés. On peut les classer en 4 familles principales :

  • régression : prédiction d'une variable quantitative
  • classification : prédiction d'une variable qualitative
  • partitionnement des données : division d'un ensemble de données en différents « paquets » homogènes
  • réduction de dimension : réduction du nombre de variables des données idéalement sans perdre en puissance de prédiction

Certains algorithmes peuvent appartenir à plusieurs de ces familles. C'est notamment le cas des réseaux de neurones qui sont capables, moyennant quelques adaptations, de répondre à ces 4 problématiques.

Le deep learning est un cas particulier du machine learning qui utilise des réseaux de neurones dits profonds. Ce sont des réseaux de neurones plus complexes qui ont une plus grande capacité d'abstraction au prix d'un entraînement qui nécessite une grande puissance de calcul et une grande quantité de données. C'est pourquoi ils n'ont pas pu être utilisés pleinement avant les années 2010 alors que leur fondement théorique existait déjà dans les années 1980.

En résumé

  • Le deep learning est un sous-ensemble du machine learning qui est lui-même un sous-ensemble de l'intelligence artificielle.
  • L'intelligence artificielle est un des outils utilisés par la data science.
  • Les techniques de data science peuvent être appliquées sur des big data, mais pas seulement.

Derniers articles

Pourquoi nous utilisons Wagtail : le CMS Django qui sépare les casquettes

Une introduction à Wagtail et son Zen : comment laisser à l'éditeur·i·ce de contenu un peu de choix, mais pas trop.

Comment devenir un bureau d'enregistrement ?

Devenir bureau d'enregistrement est un parcours de la combattante au niveau technique, administratif et financier. Il y a des cas simples et d'autres qui demandent de raser un Yack.

Précisions sur le projet de bureau d'enregistrement coopératif

L'appel à intérêt lancé la semaine dernière a suscité plusieurs réactions sur les valeurs proposées : clarifions quelques points aujourd'hui.

Appel à intérêt pour un bureau d'enregistrement coopératif

Qui serait partant·e pour participer (ou être client·e) du premier registrar sous forme de société coopérative d'intérêt collectif ?