데이터웨어하우스(DW)
태그 :
- 개념
- - 수년간의 기업의 운영계 시스템에서 발생한 내부 데이터와 외부 데이터를 주제별로 통합하여 별도의 프로그래밍 없이 즉시 여러 각도에서 분석할 수 있도록 하는 통합시스템 - 데이터 웨어하우징(Data Warehousing)은 데이터의 수집 및 처리에서 도출되는 정보의 활용에 이르는 일련의 프로세스
I. 데이터웨어하우스의 개요
가. DW(Data Warehouse)의 정의
- 수년간의 기업의 운영계 시스템에서 발생한 내부 데이터와 외부 데이터를 주제별로 통합하여 별도의 프로그래밍 없이 즉시 여러 각도에서 분석할 수 있도록 하는 통합시스템
- 데이터 웨어하우징(Data Warehousing)은 데이터의 수집 및 처리에서 도출되는 정보의 활용에 이르는 일련의 프로세스
나. DW(Data Warehouse)의 필요성
- 판매자 중심에서 구매자 중심으로 비즈니스 시장변화의 급속한 변화
- 신속하고 정확한 의사결정이 기업의 생존 직결됨.
다. DW(Data Warehouse)의 특징
특징 |
설명 |
주제지향적 (Subject – Oriented) |
- 업무기능별로 관리되는 다수의 운영계 데이터를 전사관점에서 중복을 최소화 하고, 모든 업무에 공유 할 수 있도록 통합하는 기준 - 전사공통 관심 주제를 중심으로 관련데이터 통합 ( 데이터가 조직의 Business 주제에 따라 분류되어지고 저장됨 ) - 특정 업무기능이나 어플리케이션에 종속되지 않는 데이터 구조 |
통합적 (Integrated) |
- 데이터의 정합성과 물리적 통일성을 갖는 데이터 구조 - 데이터 모델링을 통해 데이터 정합성 보장 - 전사적인 데이터 표준화를 통해 데이터 통일성 확보 - 운영계로부터 데이터 획득 시 데이터 통합을 위한 일련의 변환작업 수행 |
시계열적 (Time-Variant) |
- 데이터는 오랜 기간 동안 보유 되며, 과거와 현재의 경향에 대한 분석, 예측에 무엇을 해야 하는지 가능하게 일련의 Snapshots 형태로 저장 함 - 일정 기간동안의 업무변화 내지는 발전추세 분석에 필요 - 이력데이터를 통해 시간경과에 따른 데이터의 변화과정 파악 가능, Snapshot 생성 |
비 휘발성 |
- 데이터웨어하우스에는 일반적으로 데이터 갱신 프로세스가 존재하지 않음 - 일상적으로 데이터적재와 데이터 엑세스만 존재 - 운영계에서 발생한 변경요건을 갱신하지 않고 Snapshot 형태로 반영 |
Ⅱ. 데이터웨어하우스의 개념도와 구성요소
가. 데이터웨어 하우스의 개념도
나. 데이터웨어 하우스의 구성요소
구성요소 |
설명 |
ETT |
소스 데이터로부터 필요 데이터를 검색, 추출, 변환하여 목표 데이터베이스환경으로 전달하는 과정 |
DOS (Operational Data Store) |
운영계 시스템별로 관리되는 데이터를 전사관점에서 통합 관리함으로써, 전사데이터공유를 가능하게 하여주는 통합데이터베이스 |
DM (Data Mart) |
의사결정 프로세스 지원을 목적으로 하는 부서별 또는 업무기능별 DW - 부서의 분석수행에 가장 적합한 데이터구조 - EDW로 부터 필요한 데이터 획득 - 일반적으로 한 기업 내에 복수개의 DM 존재 |
OLAP (Online Analyticla Processing) |
EDW와 DM의 데이터를 사용자의 요건에 따라 다각적으로 분석하고 활용할 수 있도록 지원하는 도구 - 사용자가 도구를 이용하여 프로그래머의 지원 없이도 의사결정 및 분석업무에 필요한 정보를 스스로 얻을 수 있음 |
메타데이터 |
데이터의 사용성과 관리효율성 향상을 위한 데이터에 관한 데이터 DW 아키텍쳐 구성 요소간의 결합력(Cohesiveness)을 유지시켜주는 매개체 |
다. 데이터웨어 하우스의 구축절차
II. 데이터웨어하우스의 4가지 특징
가. 주제지향적
- Data Warehouse는 의사 결정에 필요한 특정 주제(subject)의 데이터만을 가지며 그 외의 데이터는 포함하지 않음
- <적용사례 >
- 운영계 시스템의 생산, 영업, 구매 테이블에 제품, 거래처, 고객 등의 중복되는 데이터를 Data Warehouse 는 하나의 주제 영역으로 분리하여 데이터를 관리함
나. 주제지향적
- Data Warehouse에 저장, 관리되는 데이터는 일반적으로 다수의 서로 다른 형태의 데이터베이스로부터 통합(integrated)된 것
- <적용사례>
- 운영계 시스템의 데이터 성별이 남자/여자 또는 M/F등 정보마다 각기 다르고, 날짜 형식 또한 다양하여 통일된 형식으로 변환시켜 Data Warehouse에 적재시킴
다. 비휘발성
- Data Warehouse의 데이터는 운영계 데이터 베이스로부터 로딩하고 액세스 하기 때문에 삭제 및 수정이 불가능 즉, 한 시점에서 다량의 Data가 적재되고 Access 되는 반면 갱신은 이루어 지지 않는 조회 전용 Database
- <적용사례>
- 운영계 시스템 데이터는 Update 가 일어나면 기존 데이터는 지워지지만, Data Warehouse에서는 각 시점에 있던 데이터를 모두 저장함
라. 시계열성
- Data Warehouse는 시간에 따라 변화된 데이터 정보를 통해 의사결정을 하기 때문에 일정기간 동안의 데이터를 저장하여 시점에 따른 분석을 가능하게 함
- <적용사례>
- 매년 판매실적을 집계하고 계획하기 위해 1년 주기로 데이터를 추출하여 Data Warehouse 에 적재시킴
[DW 2.0]
I. 데이터웨어하우스 2.0의 개념 및 특징
가. 데이터웨어하우스 2.0의 개념
- 대규모 정형, 비정형 데이터에 대한 실시간 처리와 최신 기술에 대한 수용력, 경제성을 추구하는 차세대 데이터웨어하우스 아키텍처
- 비즈니스 요구사항 변화에 맞춰 쉽게 변경 가능한 역동성을 갖는 데이터웨어하우스의 새로운 패러다임
나. 데이터웨어하우스 2.0의 특징
- 데이터의 생명주기: 데이터의 생명주기를 인식하고 활용도에 따라 분리하여 저장(성능/경제성 향상)
- 메타데이터 기반: 규모의 복잡성, 유지보수 관리 필요성으로 인해 메타데이터 중요성 부각
- 비정형데이터 포함: 비정형 데이터의 통합과 접근, 분석 지원을 추구함
- 대용량 데이터 대응: 비정형 환경의 데이터 증가속도 급증(정형의 4~5배)에 대한 경제적 대응
- 비즈니스 변화에 유연: 쉽고 변경 가능한 역동적 기반기술을 활용
II. 데이터웨어하우스 2.0 아키텍처 설명
가. 데이터웨어하우스 2.0 아키텍처의 구성
나. 데이터웨어하우스 4대영역 설명
- 데이터에 대한 접근 패턴, 데이터의 양에 따라 4대영역으로 분리하여 비용과 성능문제 해결
영역 |
설명 |
트랜잭션 |
Interactive Sector |
- 응용프로그램의 트랜잭션, ETL을 통해 데이터가 들어오는 장소 - 다른 영역에 비해 소량의 데이터가 항상 디스크에 저장되는 영역으로 실시간 상호작용이 가능함 |
추가, 삭제,조정 등 업데이트 가능 |
Integrated Sector |
- 상호작용 영역의 데이터가 ETL 계층을 통과하여 통합되는 영역 - 통합영역의 데이터는 주제지향 상세데이터, 소규모의 요약 데이터, 연속적인 시간데이터, 프로파일 데이터(한 주제에 대한 취합 정보)의 특징을 가짐(분석 용이) - 통합영역의 데이터는 균일하고 역사적이며 광범위한 소스로부터 취합 되므로 많은 양의 데이터를 보유하고 있음 |
조회만 가능 |
Near Line Sector |
- 통합영역의 디스크 저장장치보다 저렴한 카트리지를 이용하여 통합 영역의 데이터 중 접근확률이 낮은 데이터를 저장하는 영역 - 통합 영역을 위한 캐시 메모리로서의 역할을 수행하는 영역 - 준보관 영역의 데이터 중 자주 사용되는 데이터는 통합영역으로 이동 (준보관, 통합영역의 데이터 구조, 형식, 기술은 동일) |
조회만 가능 |
Archival Sector |
- 데이터의 접근 확률이 매우 적을 때 데이터가 이동되는 장소 - 아카이브 영역의 데이터는 순차적으로 검색되고 많은 데이터가 존재 |
거의 조회되지 않음 |
III. 데이터웨어하우스 2.0에서 메타데이터의 역할
가. 데이터웨어하우스 2.0에서 메타데이터의 부각 배경
- 크기의 다양성 |
DW의 규모와 복잡성 증대로 필요한 정보 검색의 어려움 발생 |
- 더욱 다양한 사용자 |
DW 전문 분석가, 초보 사용자 등 다양한 계층의 사용자가 접근 |
- 광범위한 메타데이터 범위 |
어디에 어떤 데이터가, 어떤 형태로 있는지 유용한 분석정보 제공 |
- 유지보수 관리 필요성 |
메타데이터의 효율적 관리를 통해 DW 유지보수성 향상 |
- 위와 같은 이유로 메타데이터가 존재하지 않거나 나중에 구축되는 1세대 DW와 달리, DW 2.0에서 메타데이터가 핵심 지지대 중의 하나로 부각됨
나. 수준별 분류에 따른 메타데이터의 역할
영역 |
설명 |
역할 |
기업 메타데이터 |
- 전사적(마스터) 메타데이터 - 모든 툴과 프로세스에 존재 - 용어가 일관되고 공통 용어로 기술 |
- 기업 수준과 로컬과의 관계성 조사 - 비즈니스 영역 지원 데이터 식별 - 기업 수준에서 용어/단어를 통합(표준화) |
로컬 메타데이터 |
- 사용의 중심점인 툴에 저장 - 사용되는 툴에 종속적인 관계 |
- 데이터의 소스에서 타켓 이동/변환 정보 제공 - DBMS 테이블, 속성, 인덱스 정보 제공 |
비즈니스 메타데이터 |
- 비즈니스 상의 전문용어로 기술 - 실제 기업의 업무에 적합 |
- 업무 의사소통, 이해 용이, 용어 표준화 - 정보에 대한 감사 추적 |
테크니컬 메타데이터 |
- 기술자들 간의 전문용어로 기술 - 어플리케이션 운용자에 필요 |
- 기술관련 의사소통, 이해 용이, 용어 표준화 - DW 2.0 어플리케이션 개발, 유지보수 향상 |
다. 사용자 관점별 메타데이터의 역할
관점 |
역할 |
전문 분석가 |
- 어떤 데이터가 가용한지를 판단하고 데이터에 접근할 수 있도록 가이드 하여 새로운 분석 요구사항을 발견하는데 도움 |
최종 사용자 |
- 이미 수행된 분석 결과가 있는지를 판단하여 효율적 검색 지원 - 데이터 및 관계에 대한 가이드로 데이터 재사용성 향상 |
개발자 |
- 과거에 수행한 개발 업무에 대한 정보 제공 - 신규 데이터웨어하우스 2.0 어플리케이션 개발 가이드, 용어 표준화 |
운영자 |
- 데이터웨어하우스의 이슈의 체계적 처리, 운용 지원 - 현재 데이터에 대한 설명, 데이터 소스 식별에 도움 |
IV. 성공적인 DW 2.0 구축 방법 및 접근법
가. 성공적인 DW 2.0 구축 방법
- 나선형방법론 적용: 데이터웨어하우스 프로젝트가 수행되는 동안 모든 비즈니스 요구사항을 취합하는 것은 불가능, 팀 조직화에 세심한 주의를 기울이며 반복적으로 구축
- ROI가 아닌 ROA(Return On Asset) 측정: 데이터가 재사용 되었는가, 메타데이터가 재사용 되었는가, 구조적 비즈니스 규칙이 재사용 되었는가, ETL 로직이 재사용 가능하고 확장 가능한가에 초점
나. DW 2.0에 대한 효율적인 7가지 접근법
- 기업 데이터 모델링은 주제영역별로 수행
- 전사 지식 조정/결합은 결과물 별로 수행
- 정보공장(DW 2.0) 개발은 나선형 방법론으로 개발
- 데이터 프로파일링과 매핑은 소스별로 수행
- 데이터 수집과 정제는 속성별로 수행 – 예) 남녀의 유효한 값을 가지는 속성 “성별”
- 시스템 인프라 관리는 컴포넌트 별로 수행
- 통합 정보 품질 관리는 프로세스 개선 및 오류방지를 위해 프로세스별로 수행