DW모델링
태그 :
- 개념
- - 대용량의 데이터를 다양한 관점에서 빠른 성능으로 분석할 수 있도록 구성하는 데이터분석관점의 모델링 기법임
I. DW 모델링의 개요
가. DW 모델링의 정의
- 대용량의 데이터를 다양한 관점에서 빠른 성능으로 분석할 수 있도록 구성하는 데이터분석관점의 모델링 기법임
- DW자체에 대한 데이터모델을 일반적인 ERD형태의 표현할 수도 있고 Star Schema와 Snow Flake Schema로 표현할 수 도 있음. 일반적으로는 Star Schema와 Snow Flake Schema 등의 다차원모델링(Dimensional Modeling) 기법을 사용하여 설계함
나. DW 모델링이 필요한 이유
- 데이터 웨어 하우스의 데이터 모델링은 다각적인 접근이 필요합니다.
- 운영 DB나 업무규칙을 바탕으로 정확한 Business Rule을 추출하여 데이터 웨어 하우스 데이터 모델의 기본 골격을 결정합니다
- 정보요구나 보고서를 바탕으로 데이터의 정보 요건을 추출합니다
- 데이터 웨어 하우스 데이터 모델이 데이터 마트의 정보요건을 적절히 지원할 수 있도록 모델을 정비하여야 합니다
다. 다차원 모델링 기법의 특징
- 정보를 비즈니스 차원으로 조직화
- 최종사용자와 분석가가 정보를 분석하는 방법을 표현하므로 사용자들이 쉽게 접근 가능
- 특정 부서나 개인의 정보분석 목적을 충족시키기 위하여 정보분석 기준을 중심으로 미리 집계되거나 계산된 형태로 정보를 관리/제공
- 사실(Fact) 테이블과 차원(Dimension) 테이블로 구성
II. DW 모델링 기법
가. DW 모델링 용어
구분 |
OLTP |
Fact |
- 중심테이블(major 테이블)로서 관련성이 높은 Measure들의 집합 - Measure는 사업의 Performance와 주요 사업성공 요인들을 관찰할 수 있는 수단으로 사업분석에 필요로 하는 Data(금액, 건수, 시간 등) - 두 가지의 Type의 Measures Raw(Base) fact / Derived(Calculated) metric |
Dimension |
-부속 테이블(minor 테이블) - 각 Fact를 분석하는 하나의 관점 Dimension은 복수의 속성을 가지고 있으며 이것은 Drill-up과 Drill-down등 데이터분석의 요약수준에 대한 Navigation를 가능하게 하는 경로를 지님 |
속성 |
각 차원 테이블이 가지고 있는 속성 임. 사실을 검색하고, 여과하고 분류할 때 사용 됨. |
속성 계층 |
차원 내 정의된 속성들 간에 존재하는 계층 관계 아래로 가기 (Drill-down) 및 위로 가기 (Roll-up) 등 기능 이용 |
나. 스타 스키마
구분 |
주요개념 |
정의 |
Fact테이블과 Dimension 테이블로 데이터를 분리하여 설계한 모델임 |
특성 |
장점 : 이해하기 쉽고, 계층구조 정의가 용이하고, 물리적인 조인수가 줄어 듬. 단점 : 단일 차원 테이블 -> 설명 및 속성의 중복 저장, 상위 레벨에서의 조회 성능 저하 |
사례 |
|
다. 스노우 플레이크
구분 |
주요개념 |
정의 |
성형 스키마의 차원 테이블을 완전 정규화시킨 것임. |
특성 |
- 정규화를 통해 차원 테이블에 중복된 데이터를 제거함으로써 저장공간 줄이는 데 있음. - 사실 테이블에 비해 차원 테이블의 크기는 작기 때문에 그 효과는 적음. - 오히려 검색 속도를 떨어뜨리므로 사용에 주의해야 함. |
사례 |
|
라. 스타 스키마 와 스노우 플레이크 비교
|
스타 스키마 |
스노우 플레이크 |
장점 |
-조인의 수가 적다 -Model structure가 사용자가 정보를 이해하는 방식과 비슷 -조인의 수가 적기 때문에 쿼리에 대한 성능이 좋다. |
-테이블의 크기 작음 -> 작은 storag space차지 -정규화가 잘되어 있어 중복이적음 -Performance flexibility, maintain 능력을 향상 시킬수 있다. |
단점 |
중복이 많다. Inflexible하다. Data일관성에 문제발생 많은 수의 요약이 필요하다. |
스타조인의 수가 많다. 복잡하기 때문에 사용자가 이해하기 어렵다
|