[빅데이터분석기사 필기] 1과목 빅데이터 분석 기획 핵심 요약 - ② 데이터분석 계획





1과목 part2.데이터 분석계획


1. 분석방안수립

1.1 분석 기획 방향성 도출

- 분석 대상(What)과 방법(How)에 따른 분류


- 접근 방식에 따른 분류


1.2. 분석 기획시 고려사항

가용 데이터 확보 → 적절한 유스케이스 탐색 → 낮은 실행장벽

1) 가용 데이터 파악: 분석의 기본이 되는 데이터 확보 및 파악

2) 적절한 유스케이스 탐색: 기존에 잘 구현 되어있는 유사 시나리오 활용

3) 장애요소에 대한 사전계획 수립: 장애 요소 사전 파악 및 대응 전략 마련


1.3 분석 마스터플랜 수립

- IT 프로젝트의 우선순위 선정 기준: 중장기 마스터 플랜을 수립하기 위해 ISP 활용 

                        *ISP: information strategy planning, 정보전략계획

1) 전략적 중요도: 전략적 필요성, 시급성

2) 실행 용이성: 투자 용이성, 기술 용이성

3) 비즈니스 성과 / ROI: 투자비용요소 3V + value

- 데이터 분석 프로젝트의 우선순위 선정 기준

1) 시급성 관점: 비즈니스 효과, KPI - Value

2) 난이도 관점: 투자비용 요소 - 3V(Volume, Variety, Velocity) + value(비즈니스 효과)

   

1.4 분석 로드맵 수립 절차 

- 데이터 분석체계 도입 → 데이터 분석 유효성 검증 → 데이터 분석 확산 및 고도화


2. 분석 문제 정의

2.1. 하향식 접근 방법(Top Down)

- 문제탐색 → 문제 정의 → 해결방안탐색 → 타당성 검토

1) 문제 탐색

1.1) 비즈니스 모델 기반 탐색: 비즈니스 모델 + 외부사례 기반(벤치마킹)

업무 / 제품 / 고객 / 규제와 감사 / 지원 인프라

1.2) 발굴 범위 확장

- 거시적 관점: STEEP(사회, 기술, 경제, 환경, 정치)

- 경쟁자 확대 관점: 대체자, 경쟁자, 신규 진입자

- 시장의 니즈  탐색 관점: 고객, 채널, 영향자

- 역량의 재해석: 내부 역량, 파트너 네트워크

1.3) 내/외부 사례 참조

- 외부 참조 모델 기반 (벤치마킹), 분석 유스케이스 (과거 유사한 사례)

- 문제 탐색 단계에서 정성적 분석 기법(FGI, 인터뷰, 설문 등) 활용 가능

2) 문제 정의

- 비즈니스 문제를 데이터 문제로 변환하여 정의

- 최종 사용자 관점에서 정의

- 분석의 관점에서 가능한 정확하게 문제를 재정의

3) 해결방안 탐색

- 분석 역량 (Who) + 분석 기법 및 시스템 (How)


4) 타당성 검토

- 경제적 타당성, 데이터 타당성, 기술적 타당성

5) 비즈니스 모델 캔버스


2.2. 상향식 접근 방법

- 문제 정의 자체가 어려울 때, 사물을 그대로 인식

- 프로세스 분류 → 프로세스 흐름 분석 → 분석요건 식별 → 분석요건 정의

- 상향식 접근법의 적용 방법: 비지도 학습, 프로토타이핑 접근법


2.3. 혼합 접근 방법

(1) 발산 단계: 상향식 접근 방법으로 가능한 방안들을 도출

(2) 수렴 단계: 하향식 접근 방법으로 도출된 방안들을 분석

※ 디자인 사고 접근법: 사용자 공감으로 시작해서 아이디어 발산/수렴 과정을 통해 발전하는 방식

- 공감하기 → 문제정의 → 아이디어 도출 → 프로토타입 → 테스트


3. 데이터 분석 방안

3.1. 분석 방법론의 구성요소

- 절차, 방법, 도구와 기법, 템플릿과 산출물


3.2. 분석 모델의 유형

1) 계층적 프로세스 모델

- 단계(Phase) → 태스크 → 스텝(WBS의 work package)

→ 빅데이터 분석 방법론의 기반

2) 폭포수 모델

- 이전 단계 완료되어야 다음 단계 진행 (Top-down)

3) 프로토타입 모델

- 요구분석 → Prototype 개발 및 개선 → Prototype 검토 및 평가 → 상세 개발 → 설치

- Prototype 검토 및 평가 단계에서 feedback을 통해 요구분석 또는 개발 단계로 back

- Prototype 검토 및 평가 단계에서 실효성이 없다고 판단되는 경우 프로젝트 폐기

4) 나선형 모델

- 개발 → 고객평가 → 계획수립 → 위험분석 단계를 나선을 돌면서 점진적으로 개발

5) agile

- 짧은 개발 주기를 가지고 고객 피드백을 지속적으로 반영하여 반복적으로 개발

6) 반복적 모형

- 폭포수, 프로토타입, 나선형이 혼합된 모형

- 증분형(incremental)과 진화형(evolution)으로 분류



3.3. KDD 분석 방법론

- 통계적 패턴이나 지식을 찾기 위해 정리한 데이터

- 데이터 선택 → 전처리 → 변환 → 마이닝 → 평가

1) 데이터 선택: 원시데이터나 DB에서 필요한 데이터 선택

2) 전처리: 이상값, 잡음 식별 및 데이터 가공

3) 변환: 변수 선택 및 차원축소

4) 마이닝: 알고리즘을 선택하여 분석 수행

5) 평가: 결과에 대한 해석, 결과가 충족되지 않으면 절차를 반복 수행


3.4. Crisp-DM 분석 방법론

- 유럽연합 ESPRIT에서 시작

- 업무 이해 → 데이터 이해 → 데이터 준비 → 모델링 → 평가 → 전개

1) 업무 이해: 업무 목적 파악, 상황 파악, 목표 설정, 프로젝트 계획 수립

2) 데이터 이해: 초기 데이터 수집, 기술 분석, EDA, 데이터 품질 확인

3) 데이터 준비: 분석용 데이터 셋 선택, 정제, 편성, 통합, 포맷팅

4) 모델링: 모델링 기법 선택, 테스트 계획 설계, 모델 작성 및 평가

5) 평가: 분석결과 평가, 모델링 과정 평가, 모델 적용성 평가

6) 전개: 전개 계획 수립, 모니터링 및 유지보수 계획 수립, 프로젝트 종료 보고서 작성, 프로젝트 리뷰

평가 → 전개에서 위대한 실패(업무 이해로 다시 돌아감) 발생 가능


3.5. SEMMA 분석 방법론 (SAS)

- SAS사 주도로 만들어진 기술, 통계 중심 방법론

- 샘플링 → 탐색 → 변형 → 모델링 → 평가(Assess)

3.6. 빅데이터 분석 방법론

단계 → 태스크 → 스텝

단계

Planning

(분석기획)

Preparing

(데이터 준비)

Analyzing

(데이터 분석)

Developing

(시스템 구현)

Deploying

(평가 및 전개)

태스크

비즈니스 이해 및 범위 설정

필요 데이터 정의

분석용 데이터 준비

설계 및 구현

모델 발전계획 수립

프로젝트 정의 및 계획 수립

데이터 스토어 설계

텍스트 분석

시스템 테스트 및 운영

프로젝트 평가 및 보고

프로젝트 위험 계획 수립

데이터 수집 및 정합성 점검

탐색적 분석





모델링





모델 평가 및 검증





모델 적용 및 운영방안 수립




1) 분석 기획

- 비즈니스 이해 및 범위 설정: SOW(Statement of Works) - 구조화된 프로젝트 정의서

- 프로젝트 정의 및 계획 수립: WBS(Work Breakdown Structure) - 작업 분할 구조

- 프로젝트 위험계획 수립: 회피, 전이, 완화, 수용

2) 데이터 준비

- 데이터 스토어 설계: 정형, 반정형, 비정형 데이터에 따른 효율적 저장소 설계

3) 데이터 분석

- 탐색적 데이터 분석(EDA): 기초 통계량 및 시각화를 통해 데이터 특성 파악

- 모델링: 분류, 회귀, 군집 등 알고리즘 적용


3.7. 데이터 분석 수준 진단

1) 분석 준비도

1.1) 분석적 업무파악:

- 발생한 사실 분석업무

- 예측분석 업무

- 시뮬레이션 분석업무

- 분석업무 정기적 개선

1.2) 인력 및 조직: 

- 분석전문가 직무 존재

- 분석전문가 교육훈련 프로그램

- 관리자들의 기본적 분석능력,

- 전사 분석업무 총괄 조직 존재

- 경영진 분석업무 이해능력

1.3) 분석기법:

- 업무별 적합한 분석기법 사용

- 분석업무 도입 방법론

- 분석기법 라이브러리

- 분석기법 효과성 평가

- 분석기법 정기적 개선

1.4) 분석 데이터:

- 분석업무를 위한 데이터 충분성/신뢰성/적시성

- 비구조적 데이터 관리

- 외부 데이터 활용 체계

- 마스터데이터 관리(MDM)

1.5) 분석 문화:

- 사실에 근거한 의사결정관리자의 데이터 중시

- 회의 등에서 데이터 활용

- 경영진의 직관보다 데이터

- 데이터 공유 및 협업 문화

1.6) IT 인프라:

- 운영시스템 데이터 통합

- EAI/ETL 등 데이터 유통체계

- 분석전용 서버 및 분석환경

- 빅데이터 분석환경

- 통계분석 환경 

- 비주얼분석 환경

  (2) 분석 성숙도

- 도입 → 활용 → 확산 → 최적화



도입

활용

확산

최적화

비즈니스 부문

실적 분석 및 통계

정기 보고 수행

운영 데이터 기반

미래결과 예측

시뮬레이션

운영 데이터 기반

전사 성과 실시간 분석

프로세스 혁신 3.0

분석규칙 관리

이벤트 관리

외부 환경 분석 활용

최적화 업무 적용

실시간 분석

비즈니스 모델 진화

조직 및 역량 부문

일부 부서에서 수행

담당자 역량에 의존

전문담당부서 수행

분석 기법 도입

관리자가 분석 수행

전사 모든 부서 수행

분석 COE 운영

DS 확보

DS 그룹

경영진 분석 활용

전략 연계

IT 부문

데이터 웨어하우스

데이터 마트

ETL/EAI

OLAP

실시간 대시보드

통계분석 환경

빅데이터 관리 환경

시뮬레이션/최적화

비주얼 분석

분석 전용 서버

분석 협업 환경

분석 sandbox

프로세스 내재화

빅데이터 분석


※ CMMI 모형(5단계): 분석 성숙도 진단


3.8  분석 수준 결과 진단 (준비도, 성숙도 기준)

1) 준비도 낮음 / 성숙도 낮음 = 준비형

- 데이터, 인력, 조직, 분석업무, 분석기법 적용 안되어 사전 준비 필요

2) 준비도 낮음 / 성숙도 높음 = 정착형

- 인력, 조직, 분석업무, 분석기법 등을 제한적으로 사용

3) 준비도 높음 / 성숙도 낮음 = 도입형

- 조직 및 인력의 준비도는 높으나 분석업무 및 기법이 부족함

4) 준비도 높음 / 성숙도 높음 = 확산형

- 6가지 분석 구성요소를 모두 갖추고 있으며, 지속적 확산이 가능

3.9 분석 과제에서 고려해야할 5가지 요소

- 데이터 크기, 속도, 데이터 복잡도, 분석 복잡도, 정확도/정밀도 

3.10 프로젝트 관리 지식 체계 10가지 영역

- 통합, 범위, 시간(일정), 원가, 품질, 인적자원, 의사소통, 리스크(위험), 조달, 이해관계자

3.11 분석 거버넌스 체계 구성요소

- 조직, 프로세스, 시스템, 데이터, 분석관련 교육 및 마인드 육성체계

3.12 빅데이터 거버넌스

1) 빅데이터 거버넌스 프레임워크

- 데이터 거버넌스: 전사 차원에서 데이터에 대해 표준화된 관리 체계 수립

2) 빅데이터 거버넌스

  - 빅데이터 효율적 관리

- 데이터 최적화

- 데이터 신뢰성 검토

- 관리책임자 지정

- 정보보호

- 외부데이터 통합 관리

3) 데이터 거버넌스 구성요소

- 원칙, 조직, 프로세스

4) 데이터 거버넌스 주요 관리대상

- 마스터 데이터: 기준이 되는 자료

- 메타 데이터: 데이터에 대한 설명

- 데이터 사전: 데이터에 대한 정보

5) 데이터 거버넌스 체계

- 데이터 표준화: 메타 데이터 및 사전 구축

- 데이터 관리체계: 메타 데이터 및 사전의 관리원칙 구축

- 저장소 관리: 저장소의 구성 및 관리

- 표준화 활동: 모니터링 및 표준 개선 활동

이전최근