Dimenzionální modelování reprezentuje data pomocí operace krychle, což umožňuje vhodnější logickou reprezentaci dat při správě dat OLAP. Vnímání dimenzionálního modelování vyvinul Ralph Kimball a skládá se z tabulek „faktů“ a „dimenzí“.
V dimenzionálním modelování je záznam transakce rozdělen buď na „fakta“, což jsou často číselná data transakce, nebo na „dimenze“, což jsou referenční informace, které dávají faktům kontext. Například prodejní transakci lze poškodit na fakta, jako je počet objednaných výrobků a cena zaplacená za výrobky, a na dimenze, jako je datum objednávky, jméno uživatele, číslo výrobku, místo odeslání objednávky a místo fakturace a prodejce odpovědný za přijetí objednávky.
Cíle dimenzionálního modelování
Účelem dimenzionálního modelování je:
- Vytvořit architekturu databáze, která je pro koncové klienty snadno pochopitelná a umožňuje psát dotazy.
- Maximalizovat efektivitu dotazů. Těchto cílů dosahuje minimalizací počtu tabulek a vztahů mezi nimi.
Výhody dimenzionálního modelování
Následující výhody dimenzionálního modelování jsou:
Dimenzionální modelování je jednoduché: Metody dimenzionálního modelování umožňují návrhářům skladů vytvářet databázová schémata, která mohou obchodní zákazníci snadno uchopit a pochopit. Není třeba rozsáhlého školení o tom, jak číst schémata, a neexistují žádné složité vztahy mezi různými datovými prvky.
Dimenzionální modelování podporuje kvalitu dat: Hvězdicová schémata umožňují správcům datového skladu vynucovat kontroly referenční integrity datového skladu. Vzhledem k tomu, že informační klíč faktů je konkatenace podstatných údajů jeho přidružených dimenzí, je faktografický záznam aktivně načten, pokud jsou odpovídající záznamy dimenzí řádně popsány a také existují v databázi.
Vynucením omezení cizích klíčů jako formy kontroly referenční integrity přidávají DBA datového skladu obrannou linii proti poškozeným datům skladu.
Optimalizace výkonu je možná prostřednictvím agregací: S rostoucí velikostí datového skladu se optimalizace výkonu stává naléhavým problémem. Zákazníky, kteří musí na odpověď na dotaz čekat hodiny, sklady rychle odradí. Agregace jsou jednou z nejjednodušších metod, kterými lze optimalizovat výkon dotazů.
Nevýhody dimenzionálního modelování
- Pro zachování integrity faktů a dimenzí je načítání datových skladů záznamem z různých provozních systémů komplikované.
- Je náročné upravit provoz datového skladu, pokud organizace přijímající dimenzionální techniku změní způsob, jakým podniká.
Elementy dimenzionálního modelování
Fakta
Jedná se o soubor souvisejících datových položek, který se skládá z měr a kontextových údajů. Obvykle reprezentuje obchodní položky nebo obchodní transakce.
Dimenze
Jedná se o soubor dat, která popisují jednu obchodní dimenzi. Dimenze rozhodují o kontextovém pozadí faktů a jsou rámcem, nad kterým se provádí OLAP.
Míra
Jedná se o číselný atribut faktu, který představuje výkonnost nebo chování podniku vzhledem k dimenzím.
Vzhledem k relačnímu kontextu existují dva základní modely, které se používají při dimenzionálním modelování:
- Hvězdicový model
- Model sněhové vločky
Hvězdicový model je základní strukturou dimenzionálního modelu. Má jednu širokou centrální tabulku (tabulka faktů) a sadu menších tabulek (dimenzí) uspořádaných radiálně kolem primární tabulky. Model sněhové vločky je závěrem rozkladu jedné nebo více dimenzí.
Tabulka faktů
Tabulky faktů se používají pro údaje o faktech nebo opatřeních v podniku. Fakta jsou číselné datové prvky, které jsou pro podnik zajímavé.
Charakteristika tabulky faktů
Tabulka faktů obsahuje číselné hodnoty toho, co měříme. Například hodnota faktu 20 může znamenat, že bylo prodáno 20 widgetů.
Každá tabulka faktů obsahuje klíče k souvisejícím tabulkám dimenzí. Ty se v tabulce faktů označují jako cizí klíče.
Tabulky faktů obvykle obsahují malý počet sloupců.
Při srovnání s tabulkami dimenzí mají tabulky faktů velký počet řádků.
Tabulka dimenzí
Tabulky dimenzí určují kontext faktů. V dimenzionálních tabulkách jsou uložena pole, která popisují fakta.
Charakteristika dimenzionální tabulky
Dimenzionální tabulky obsahují podrobnosti o faktech. To například umožňuje obchodním analytikům lépe porozumět datům a jejich sestavám.
Dimenzionální tabulky obsahují popisné údaje o číselných hodnotách v tabulce faktů. To znamená, že obsahují atributy faktů. Například tabulky dimenzí pro funkci marketingové analýzy mohou obsahovat atributy, jako je čas, marketingový region a typ produktu.
Protože je záznam v tabulce dimenzí denormalizován, má obvykle velký počet sloupců. Tabulky dimenzí obsahují podstatně méně řádků informací než tabulka faktů.
Atributy v tabulce dimenzí se používají jako nadpisy řádků a sloupců v dokumentu nebo při zobrazení výsledků dotazu.
Příklad: Město a stát mohou zobrazit přehled obchodu v tabulce faktů. Přehled položek lze zobrazit podle značky, barvy atd. Informace o zákaznících lze zobrazit podle jména a adresy.
Tabulka faktů
ID času | ID výrobku | ID zákazníka | Prodaný kus |
---|---|---|---|
4 | 17 | 2 | 1 |
8 | 21 | 3 | 2 |
8 | 4 | 1 | 1 |
V tomto příkladu, Sloupec ID zákazníka v tabulce faktů je cizím klíčem, který se spojuje s tabulkou dimenze. Sledováním vazeb vidíme, že řádek 2 tabulky faktů zaznamenává skutečnost, že zákazník 3, Gaurav, koupil 8. den dvě položky.
Tabulky dimenzí
ID zákazníka | Jméno | Pohlaví | Příjem | Vzdělání | Region |
---|---|---|---|---|---|
1 | Rohan | Muž | 2 | 3 | 4 |
2 | Sandeep | Muž | 3 | 5 | 1 |
3 | Gaurav | Muž | 1 | 7 | 3 |
Hierarchie
Hierarchie je směrovaný strom, jehož uzly jsou rozměrové atributy a jehož oblouky modelují mnoho k jedné asociaci mezi rozměrovými atributy týmu. Obsahuje dimenzi umístěnou v kořeni stromu a všechny dimenzionální atributy, které ji definují
.