La modélisation dimensionnelle représente les données avec une opération de cube, rendant plus appropriée la représentation logique des données avec la gestion des données OLAP. La perception de la modélisation dimensionnelle a été développée par Ralph Kimball et est constituée de tables de « faits » et de « dimensions ».
Dans la modélisation dimensionnelle, l’enregistrement de la transaction est divisé soit en « faits », qui sont fréquemment des données de transaction numériques, soit en « dimensions », qui sont les informations de référence qui donnent un contexte aux faits. Par exemple, une transaction de vente peut être endommagée en faits tels que le nombre de produits commandés et le prix payé pour les produits, et en dimensions telles que la date de commande, le nom d’utilisateur, le numéro de produit, les emplacements d’expédition et de facturation de la commande, et le vendeur responsable de la réception de la commande.
Objectifs de la modélisation dimensionnelle
Les objectifs de la modélisation dimensionnelle sont :
- Produire une architecture de base de données facile à comprendre et à écrire des requêtes pour les clients finaux.
- Maximiser l’efficacité des requêtes. Elle atteint ces objectifs en minimisant le nombre de tables et de relations entre elles.
Avantages de la modélisation dimensionnelle
Voici les avantages de la modélisation dimensionnelle :
La modélisation dimensionnelle est simple : Les méthodes de modélisation dimensionnelle permettent aux concepteurs d’entrepôts de créer des schémas de base de données que les clients commerciaux peuvent facilement tenir et comprendre. Il n’y a pas besoin d’une vaste formation sur la façon de lire les schémas, et il n’y a pas de relation compliquée entre les différents éléments de données.
La modélisation dimensionnelle favorise la qualité des données : Le schéma en étoile permet aux administrateurs d’entrepôts d’appliquer des contrôles d’intégrité référentielle sur l’entrepôt de données. Puisque la clé d’information des faits est une concaténation des éléments essentiels de ses dimensions associées, un enregistrement factuel est activement chargé si les enregistrements de dimensions correspondants sont dûment décrits et existent également dans la base de données.
En appliquant des contraintes de clés étrangères comme une forme de vérification de l’intégrité référentielle, les DBA d’entrepôts de données ajoutent une ligne de défense contre les données corrompues des entrepôts.
L’optimisation des performances est possible grâce aux agrégats : Au fur et à mesure que la taille de l’entrepôt de données augmente, l’optimisation des performances se transforme en une préoccupation pressante. Les clients qui doivent attendre des heures pour obtenir une réponse à une requête seront rapidement découragés par les entrepôts. Les agrégats sont l’une des méthodes les plus simples pour optimiser les performances des requêtes.
Inconvénients de la modélisation dimensionnelle
- Pour maintenir l’intégrité des faits et des dimensions, le chargement des entrepôts de données avec un enregistrement provenant de divers systèmes opérationnels est compliqué.
- Il est sévère de modifier le fonctionnement de l’entrepôt de données si l’organisation qui adopte la technique dimensionnelle change la méthode dans laquelle elle fait des affaires.
Éléments de la modélisation dimensionnelle
Fait
C’est une collection d’éléments de données associés, composée de mesures et de données de contexte. Il représente généralement des éléments commerciaux ou des transactions commerciales.
Dimensions
Il s’agit d’une collection de données qui décrivent une dimension commerciale. Les dimensions décident de l’arrière-plan contextuel des faits, et elles constituent le cadre sur lequel l’OLAP est effectué.
Mesure
C’est un attribut numérique d’un fait, représentant la performance ou le comportement de l’entreprise par rapport aux dimensions.
Compte tenu du contexte relationnel, il existe deux modèles de base qui sont utilisés dans la modélisation dimensionnelle :
- Modèle en étoile
- Modèle en flocon de neige
Le modèle en étoile est la structure sous-jacente d’un modèle dimensionnel. Il comporte un grand tableau central (tableau des faits) et un ensemble de tableaux plus petits (dimensions) disposés de façon radiale autour du tableau principal. Le modèle en flocon de neige est la conclusion de la décomposition d’une ou plusieurs des dimensions.
Tableau de faits
Les tableaux de faits sont utilisés pour les faits de données ou les mesures dans l’entreprise. Les faits sont les éléments de données numériques qui présentent un intérêt pour l’entreprise.
Caractéristiques de la table de faits
La table de faits comprend les valeurs numériques de ce que l’on mesure. Par exemple, une valeur de fait de 20 pourrait signifier que 20 widgets ont été vendus.
Chaque table de faits comprend les clés des tables de dimensions associées. Celles-ci sont connues sous le nom de clés étrangères dans la table de faits.
Les tables de faits comprennent généralement un petit nombre de colonnes.
Lorsqu’on les compare aux tables de dimensions, les tables de faits ont un grand nombre de lignes.
Table de dimensions
Les tables de dimensions établissent le contexte des faits. Les tables de dimension stockent les champs qui décrivent les faits.
Caractéristiques de la table de dimension
Les tables de dimension contiennent les détails des faits. Cela, à titre d’exemple, permet aux analystes métier de mieux comprendre les données et leurs rapports.
Les tables de dimension comprennent des données descriptives sur les valeurs numériques de la table des faits. C’est-à-dire qu’elles contiennent les attributs des faits. Par exemple, les tables de dimension pour une fonction d’analyse marketing peuvent inclure des attributs tels que le temps, la région marketing et le type de produit.
Puisque l’enregistrement d’une table de dimension est dénormalisé, il comporte généralement un grand nombre de colonnes. Les tables de dimension comprennent beaucoup moins de lignes d’informations que la table de faits.
Les attributs d’une table de dimension sont utilisés comme en-têtes de ligne et de colonne dans un document ou dans l’affichage des résultats d’une requête.
Exemple : Une ville et un état peuvent visualiser un résumé de magasin dans une table de faits. Le résumé des articles peut être visualisé par marque, couleur, etc. Les informations sur les clients peuvent être visualisées par nom et adresse.
Tableau de faits
ID de l’heure | ID du produit | ID du client | Unité vendue |
---|---|---|---|
4 | 17 | 2 | 1 |
8 | 21 | 3 | 2 |
8 | 4 | 1 | 1 |
Dans cet exemple, La colonne Customer ID de la table facts est la clé étrangère qui se joint à la table dimension. En suivant les liens, nous pouvons voir que la ligne 2 de la table de faits enregistre le fait que le client 3, Gaurav, a acheté deux articles le jour 8.
Tables de dimension
Identification du client | Nom | Genre | Revenu | Éducation | Région |
---|---|---|---|---|---|
1 | Rohan | Masculin | 2 | 3 | 4 |
2 | Sandeep | Masculin | 3 | 5 | 1 |
3 | Gaurav | Mâle | 1 | 7 | 3 |
Hiérarchie
Une hiérarchie est un arbre dirigé dont les nœuds sont des attributs dimensionnels et dont les arcs modélisent l’association plusieurs à un entre l’équipe des attributs dimensionnels. Elle contient une dimension, positionnée à la racine de l’arbre, et l’ensemble des attributs dimensionnels qui la définissent.