Microsoft fournit depuis de nombreuses années un composant permettant de connecter Excel aux fonctionnalités de Data Mining de SQL Serveur Analysis Services (SSAS). Je vais vous en donner un aperçu dans ce billet.
Une fois installé, de nouvelles fonctionnalités apparaissent sous Excel dans « Exploration de données »
La qualité de données
Les trois premiers outils automatisent des tâches de qualité de données. Ils ne nécessitent pas de connexion à un serveur SSAS.
On pourra ressortir des statistiques simples sur certaines colonnes (« Explorer les données »), gérer les valeurs atypiques par remplacements avec une moyenne ou une valeur par défaut (« Nettoyer les données »), ou extraire de son jeu d’enregistrement un jeu de test statistiquement valable (« Exemples de données »).
La modélisation
Les tâches de modélisation de données reprennent les algorithmes proposés par SSAS et permettent de les appliquer sur vos données. Les sources peuvent être une feuille Excel ou un accès à une base de données (SQL Serveur uniquement).
On retrouve les fonctions détaillées ci-après.
Classer
La fonction « Classer » met en œuvre le modèle basé sur les arbres de décision. Les étapes sont simples, choix d’une variable à déterminer et critères à prendre en compte.
Ici, par exemple, l’acceptation d’un crédit en fonction du motif de l’emprunt, de l’assurance et des revenus.
L’outil va faire apparaître les critères les plus discriminants de notre variable (emprunt accepté : oui/non). La restitution se fait avec un arbre de décision.
On visualise sur la partie de gauche les informations du nœud sélectionné (ici « Assurance = ‘oui’ and Revenu_Menage >= 4604 » pour lequel on a 84,26% d’acceptation contre 14,74% de refus).
Estimer
La fonction « Estimer » permet de prévoir le résultat d’une valeur numérique en fonction des différentes caractéristiques de la population. Elle reprend la même représentation que la classification.
Cluster
La fonction « Cluster » construit des familles. L’objectif n’est pas de prédire une valeur mais de regrouper les individus du jeu de données en groupes homogènes.
La première étape consiste à sélectionner les caractéristiques à prendre en compte et de spécifier le nombre de groupes à déterminer (on peut aussi laisser l’algorithme le définir).
Les résultats sont présentés par groupes (cluster) avec les caractéristiques des individus les composant (soit des moyennes et écarts types pour les variables continues, soit la distribution pour les variables discrètes).
Associer et prévoir
« Associer » permet de créer une analyse du panier et « prévoir » fait intervenir des prédictions de séries (chronologiques par exemple).
Dans tous les cas, les modèles créés peuvent être temporaires ou sauvegardés sous SSAS. Et comme tous les modèles sauvegardés, ils pourront être réutilisés dans l’ETL de Microsoft (SSIS)… le sujet d’un autre billet.
Les tâches de maintenance
Les autres tâches vous permettront de valider la qualité de vos modèles (par application d’un jeu de données différent de celui ayant servi à la modélisation) et de les gérer sur le serveur SSAS (suppression, renomage, etc.).
En conclusion
Cet outil permet une approche utilisateur des algorithmes de datamining de SSAS. Il n’a jamais été aussi simple d’aboutir à un modèle. Il ne reste plus qu’à laisser les analystes de données en faire ressortir une compréhension et une valeur métier.
Bonjour,
Comment peut t’on télécharger ce composant?
J’aimeJ’aime
Bonjour,
Vous pouvez télécharger gratuitement cet addin pour Excel à l’adresse suivante :
http://www.microsoft.com/fr-FR/download/details.aspx?id=35578
Il vous faut en plus bien sûr Excel et un serveur Analysis services accessible (de même vous pouvez en télécharger une version d’évaluation pour installation sur votre poste https://www.microsoft.com/fr-fr/download/details.aspx?id=29066 )
Cdt
Tristan Gomendy
J’aimeJ’aime
A reblogué ceci sur Microsoft & Vous.
J’aimeJ’aime