Différence entre Data Mining & Deep Learning

 
 

Pendant des décennies le terme “intelligence artificielle” co-existe avec nos tâches quotidiennes et aujourd’hui plus que jamais des grands débats techniques et éthiques autour de ce sujet sont lancés. Toutefois, même pour certains chercheurs et technocrates les concepts et les branches de l’IA restent floues. Un des rôles de notre pôle Innovation est de démystifier l’IA auprès de nos clients. Pour ce faire, nous classifions les branches de data mining et de deep learning dans le machine learning, qui lui-même fait partie de l’intelligence artificielle. Le data mining et le deep learning ont intrinsèquement le même but, de découvrir, via des algorithmes d’optimisation, des paterns sur un ensemble de données afin de faire des analyses prédictives.

Le Data Mining

Englobe toutes les techniques qui permettent la préparation des données, l’extraction de leurs features, le clustering & la classification. Lorsque l’on parle de data mining plusieurs points sont à noter :

  • Les phases de préparation & featuring peuvent s’avérer difficiles et longues (entre 75 à 80% de l’ensemble de la charge de travail), nécessitent des connaissances d’expert compte tenu de son grand impact sur le succès du modèle choisi

  • Les données ont généralement un même format (vidéo, texte,... )

  • La quantité de données et la puissance de calcul peuvent être relativement basses avec des modèles parfois assez simples

Le Deep Learning

Automatise une grande partie des tâches manuelles du data mining, dont principalement le featuring, au détriment de l’interprétabilité du modèle. Pour cela, cette technique repose principalement sur la reproduction d’un réseau neural. Son grand avantage est la capacité d’extraire automatiquement des features dans des données (avec des formats parfois très hétérogènes) afin de prédire avec des taux de réussite très élevés. Bien que ces techniques ne soient pas nouvelles, c’était à partir de 2010 que la démocratisation du deep learning est arrivée grâce à l’explosion de la puissance de calcul (GPU et cloud computing) ainsi que du big data.

Pour conclure, les différences les plus importantes sont :

  • la grande quantité de données et la puissance de calcul nécessaire pour le deep learning

  • la difficulté dans la compréhension du modèle et dans la traçabilité de la solution pour le deep learning

  • l’effort considérable de préparation des données et l’extraction des features pour le data mining