Dimensionel modellering repræsenterer data med en terningoperation, hvilket gør den logiske datarepræsentation mere egnet til OLAP-dataadministration. Opfattelsen af Dimensional Modeling blev udviklet af Ralph Kimball og består af “fact” og “dimension” tabeller.
I dimensional modellering er transaktionsposten opdelt i enten “facts”, som ofte er numeriske transaktionsdata, eller “dimensions”, som er de referenceoplysninger, der giver kontekst til fakta. En salgstransaktion kan f.eks. opdeles i fakta som f.eks. antallet af bestilte produkter og den pris, der er betalt for produkterne, og i dimensioner som f.eks. ordredato, brugernavn, produktnummer, ordreforsendelses- og faktureringssted samt sælger, der er ansvarlig for modtagelse af ordren.
Målsætninger med dimensionel modellering
Der er følgende formål med dimensionel modellering:
- At fremstille en databasearkitektur, som er let for slutkunderne at forstå og skrive forespørgsler.
- At maksimere effektiviteten af forespørgsler. Det opnår disse mål ved at minimere antallet af tabeller og relationer mellem dem.
>Fordele ved dimensionel modellering
Følgende er fordelene ved dimensionel modellering er:
Dimensionel modellering er enkel: Dimensionelle modelleringsmetoder gør det muligt for lagerdesignere at skabe databaseskemaer, som forretningskunderne nemt kan holde og forstå. Der er ikke behov for omfattende træning i at læse diagrammer, og der er ingen komplicerede relationer mellem forskellige dataelementer.
Dimensionel modellering fremmer datakvaliteten: Stjerneskemaet gør det muligt for lageradministratorer at håndhæve referentiel integritetskontrol på datalageret. Da faktainformationsnøglen er en sammenkædning af det væsentlige i de tilknyttede dimensioner, indlæses en faktuel post aktivt, hvis de tilsvarende dimensionsposter er behørigt beskrevet og også findes i databasen.
Gennem at håndhæve fremmednøglebegrænsninger som en form for referentiel integritetskontrol tilføjer datawarehouse DBA’er en forsvarslinje mod beskadigede warehousedata.
Performanceoptimering er mulig gennem aggregater: Som størrelsen af datawarehouse stiger, udvikler ydeevneoptimering sig til en presserende bekymring. Kunder, der skal vente i timevis på at få svar på en forespørgsel, vil hurtigt blive afskrækket af warehouses. Aggregater er en af de nemmeste metoder, hvormed forespørgselsydelsen kan optimeres.
Ulemper ved dimensionel modellering
- For at opretholde integriteten af fakta og dimensioner er det kompliceret at indlæse datawarehouses med en record fra forskellige operationelle systemer.
- Det er svært at ændre datawarehouse-driften, hvis den organisation, der anvender den dimensionelle teknik, ændrer den måde, den driver forretning på.
Elementer af dimensionel modellering
Fakta
Det er en samling af tilknyttede dataelementer, der består af foranstaltninger og kontekstdata. Det repræsenterer typisk forretningselementer eller forretningstransaktioner.
Dimensioner
Det er en samling af data, der beskriver en forretningsdimension. Dimensioner bestemmer den kontekstuelle baggrund for fakta, og de er den ramme, som OLAP udføres over.
Måling
Det er en numerisk attribut for en fakta, der repræsenterer virksomhedens præstation eller adfærd i forhold til dimensionerne.
Med hensyn til den relationelle kontekst er der to grundlæggende modeller, som anvendes i dimensionel modellering:
- Stjernemodel
- Snowflake-model
Stjernemodellen er den underliggende struktur for en dimensionel model. Den har en bred central tabel (faktatabel) og et sæt mindre tabeller (dimensioner), der er anbragt i et radialt design omkring den primære tabel. Snefnugmodellen er konklusionen på at dekomponere en eller flere af dimensionerne.
Fakttabeller
Fakttabeller bruges til data fakta eller foranstaltninger i virksomheden. Fakta er de numeriske dataelementer, der er af interesse for virksomheden.
Karakteristika ved faktatabellen
Faktatabellen indeholder numeriske værdier af det, vi måler. F.eks. kan en faktaværdi på 20 betyde, at der er solgt 20 widgets.
Hver faktatabel indeholder nøglerne til de tilknyttede dimensionstabeller. Disse er kendt som fremmednøgler i faktatabellen.
Fakttabeller omfatter typisk et lille antal kolonner.
Når det sammenlignes med dimensionstabeller, har faktatabeller et stort antal rækker.
Dimensionstabel
Dimensionstabeller etablerer konteksten for fakta. Dimensionstabeller gemmer felter, der beskriver fakta.
Dimensionstabellens karakteristika
Dimensionstabeller indeholder detaljerne om fakta. Det gør det f.eks. muligt for forretningsanalytikere at forstå dataene og deres rapporter bedre.
Dimensionstabellerne indeholder beskrivende data om de numeriske værdier i faktabellen. Det vil sige, at de indeholder faktaattributterne for fakta. Dimensionstabellerne for en markedsføringsanalysefunktion kan f.eks. indeholde attributter som tid, markedsføringsregion og produkttype.
Da posten i en dimensionstabel er denormaliseret, har den normalt et stort antal kolonner. Dimensionstabellerne indeholder betydeligt færre rækker med oplysninger end faktatabellen.
Attributterne i en dimensionstabel bruges som række- og kolonneoverskrifter i et dokument eller i en visning af forespørgselsresultater.
Eksempel: En by og stat kan se en butiksoversigt i en faktabase. Artikeloversigt kan vises efter mærke, farve osv. Kundeoplysninger kan vises efter navn og adresse.
Faktatabel
Tids-id | Vare-id | Kunde-id | Solgte enheder | |
---|---|---|---|---|
4 | 17 | 2 | 1 | |
8 | 21 | 3 | 2 | |
8 | 4 | 1 | 1 | 1 |
I dette eksempel, Kolonnen Kunde-id i tabellen Fakta er de fremmede nøgler, der forbindes med dimensionstabellen. Ved at følge linkene kan vi se, at række 2 i faktatabellen registrerer det faktum, at kunde 3, Gaurav, købte to varer på dag 8.
Dimensionstabeller
Kunde-ID | Navn | Genre | Indkomst | Uddannelse | Region | ||
---|---|---|---|---|---|---|---|
1 | Rohan | Han | Mand | 2 | 3 | 4 | |
2 | Sandeep | Han | Mand | 3 | 5 | 5 | 1 |
3 | Gaurav | Han | 1 | 7 | 3 |
Hierarki
Et hierarki er et rettet træ, hvis knuder er dimensionelle attributter, og hvis buer modellerer mange til en sammenhæng mellem dimensionelle attributter hold. Det indeholder en dimension, der er placeret ved træets rod, og alle de dimensionelle attributter, der definerer den.