1과목 part2.데이터 분석계획
1. 분석방안수립
1.1 분석 기획 방향성 도출
- 분석 대상(What)과 방법(How)에 따른 분류
- 접근 방식에 따른 분류
1.2. 분석 기획시 고려사항
가용 데이터 확보 → 적절한 유스케이스 탐색 → 낮은 실행장벽
1) 가용 데이터 파악: 분석의 기본이 되는 데이터 확보 및 파악
2) 적절한 유스케이스 탐색: 기존에 잘 구현 되어있는 유사 시나리오 활용
3) 장애요소에 대한 사전계획 수립: 장애 요소 사전 파악 및 대응 전략 마련
1.3 분석 마스터플랜 수립
- IT 프로젝트의 우선순위 선정 기준: 중장기 마스터 플랜을 수립하기 위해 ISP 활용
*ISP: information strategy planning, 정보전략계획
1) 전략적 중요도: 전략적 필요성, 시급성
2) 실행 용이성: 투자 용이성, 기술 용이성
3) 비즈니스 성과 / ROI: 투자비용요소 3V + value
- 데이터 분석 프로젝트의 우선순위 선정 기준
1) 시급성 관점: 비즈니스 효과, KPI - Value
2) 난이도 관점: 투자비용 요소 - 3V(Volume, Variety, Velocity) + value(비즈니스 효과)
1.4 분석 로드맵 수립 절차
- 데이터 분석체계 도입 → 데이터 분석 유효성 검증 → 데이터 분석 확산 및 고도화
2. 분석 문제 정의
2.1. 하향식 접근 방법(Top Down)
- 문제탐색 → 문제 정의 → 해결방안탐색 → 타당성 검토
1) 문제 탐색
1.1) 비즈니스 모델 기반 탐색: 비즈니스 모델 + 외부사례 기반(벤치마킹)
업무 / 제품 / 고객 / 규제와 감사 / 지원 인프라
1.2) 발굴 범위 확장
- 거시적 관점: STEEP(사회, 기술, 경제, 환경, 정치)
- 경쟁자 확대 관점: 대체자, 경쟁자, 신규 진입자
- 시장의 니즈 탐색 관점: 고객, 채널, 영향자
- 역량의 재해석: 내부 역량, 파트너 네트워크
1.3) 내/외부 사례 참조
- 외부 참조 모델 기반 (벤치마킹), 분석 유스케이스 (과거 유사한 사례)
- 문제 탐색 단계에서 정성적 분석 기법(FGI, 인터뷰, 설문 등) 활용 가능
2) 문제 정의
- 비즈니스 문제를 데이터 문제로 변환하여 정의
- 최종 사용자 관점에서 정의
- 분석의 관점에서 가능한 정확하게 문제를 재정의
3) 해결방안 탐색
- 분석 역량 (Who) + 분석 기법 및 시스템 (How)
4) 타당성 검토
- 경제적 타당성, 데이터 타당성, 기술적 타당성
5) 비즈니스 모델 캔버스
2.2. 상향식 접근 방법
- 문제 정의 자체가 어려울 때, 사물을 그대로 인식
- 프로세스 분류 → 프로세스 흐름 분석 → 분석요건 식별 → 분석요건 정의
- 상향식 접근법의 적용 방법: 비지도 학습, 프로토타이핑 접근법
2.3. 혼합 접근 방법
(1) 발산 단계: 상향식 접근 방법으로 가능한 방안들을 도출
(2) 수렴 단계: 하향식 접근 방법으로 도출된 방안들을 분석
※ 디자인 사고 접근법: 사용자 공감으로 시작해서 아이디어 발산/수렴 과정을 통해 발전하는 방식
- 공감하기 → 문제정의 → 아이디어 도출 → 프로토타입 → 테스트
3. 데이터 분석 방안
3.1. 분석 방법론의 구성요소
- 절차, 방법, 도구와 기법, 템플릿과 산출물
3.2. 분석 모델의 유형
1) 계층적 프로세스 모델
- 단계(Phase) → 태스크 → 스텝(WBS의 work package)
→ 빅데이터 분석 방법론의 기반
2) 폭포수 모델
- 이전 단계 완료되어야 다음 단계 진행 (Top-down)
3) 프로토타입 모델
- 요구분석 → Prototype 개발 및 개선 → Prototype 검토 및 평가 → 상세 개발 → 설치
- Prototype 검토 및 평가 단계에서 feedback을 통해 요구분석 또는 개발 단계로 back
- Prototype 검토 및 평가 단계에서 실효성이 없다고 판단되는 경우 프로젝트 폐기
4) 나선형 모델
- 개발 → 고객평가 → 계획수립 → 위험분석 단계를 나선을 돌면서 점진적으로 개발
5) agile
- 짧은 개발 주기를 가지고 고객 피드백을 지속적으로 반영하여 반복적으로 개발
6) 반복적 모형
- 폭포수, 프로토타입, 나선형이 혼합된 모형
- 증분형(incremental)과 진화형(evolution)으로 분류
3.3. KDD 분석 방법론
- 통계적 패턴이나 지식을 찾기 위해 정리한 데이터
- 데이터 선택 → 전처리 → 변환 → 마이닝 → 평가
1) 데이터 선택: 원시데이터나 DB에서 필요한 데이터 선택
2) 전처리: 이상값, 잡음 식별 및 데이터 가공
3) 변환: 변수 선택 및 차원축소
4) 마이닝: 알고리즘을 선택하여 분석 수행
5) 평가: 결과에 대한 해석, 결과가 충족되지 않으면 절차를 반복 수행
3.4. Crisp-DM 분석 방법론
- 유럽연합 ESPRIT에서 시작
- 업무 이해 → 데이터 이해 → 데이터 준비 → 모델링 → 평가 → 전개
1) 업무 이해: 업무 목적 파악, 상황 파악, 목표 설정, 프로젝트 계획 수립
2) 데이터 이해: 초기 데이터 수집, 기술 분석, EDA, 데이터 품질 확인
3) 데이터 준비: 분석용 데이터 셋 선택, 정제, 편성, 통합, 포맷팅
4) 모델링: 모델링 기법 선택, 테스트 계획 설계, 모델 작성 및 평가
5) 평가: 분석결과 평가, 모델링 과정 평가, 모델 적용성 평가
6) 전개: 전개 계획 수립, 모니터링 및 유지보수 계획 수립, 프로젝트 종료 보고서 작성, 프로젝트 리뷰
평가 → 전개에서 위대한 실패(업무 이해로 다시 돌아감) 발생 가능
3.5. SEMMA 분석 방법론 (SAS)
- SAS사 주도로 만들어진 기술, 통계 중심 방법론
- 샘플링 → 탐색 → 변형 → 모델링 → 평가(Assess)
3.6. 빅데이터 분석 방법론
단계 → 태스크 → 스텝
1) 분석 기획
- 비즈니스 이해 및 범위 설정: SOW(Statement of Works) - 구조화된 프로젝트 정의서
- 프로젝트 정의 및 계획 수립: WBS(Work Breakdown Structure) - 작업 분할 구조
- 프로젝트 위험계획 수립: 회피, 전이, 완화, 수용
2) 데이터 준비
- 데이터 스토어 설계: 정형, 반정형, 비정형 데이터에 따른 효율적 저장소 설계
3) 데이터 분석
- 탐색적 데이터 분석(EDA): 기초 통계량 및 시각화를 통해 데이터 특성 파악
- 모델링: 분류, 회귀, 군집 등 알고리즘 적용
3.7. 데이터 분석 수준 진단
1) 분석 준비도
1.1) 분석적 업무파악:
- 발생한 사실 분석업무
- 예측분석 업무
- 시뮬레이션 분석업무
- 분석업무 정기적 개선
1.2) 인력 및 조직:
- 분석전문가 직무 존재
- 분석전문가 교육훈련 프로그램
- 관리자들의 기본적 분석능력,
- 전사 분석업무 총괄 조직 존재
- 경영진 분석업무 이해능력
1.3) 분석기법:
- 업무별 적합한 분석기법 사용
- 분석업무 도입 방법론
- 분석기법 라이브러리
- 분석기법 효과성 평가
- 분석기법 정기적 개선
1.4) 분석 데이터:
- 분석업무를 위한 데이터 충분성/신뢰성/적시성
- 비구조적 데이터 관리
- 외부 데이터 활용 체계
- 마스터데이터 관리(MDM)
1.5) 분석 문화:
- 사실에 근거한 의사결정관리자의 데이터 중시
- 회의 등에서 데이터 활용
- 경영진의 직관보다 데이터
- 데이터 공유 및 협업 문화
1.6) IT 인프라:
- 운영시스템 데이터 통합
- EAI/ETL 등 데이터 유통체계
- 분석전용 서버 및 분석환경
- 빅데이터 분석환경
- 통계분석 환경
- 비주얼분석 환경
(2) 분석 성숙도
- 도입 → 활용 → 확산 → 최적화
※ CMMI 모형(5단계): 분석 성숙도 진단
3.8 분석 수준 결과 진단 (준비도, 성숙도 기준)
1) 준비도 낮음 / 성숙도 낮음 = 준비형
- 데이터, 인력, 조직, 분석업무, 분석기법 적용 안되어 사전 준비 필요
2) 준비도 낮음 / 성숙도 높음 = 정착형
- 인력, 조직, 분석업무, 분석기법 등을 제한적으로 사용
3) 준비도 높음 / 성숙도 낮음 = 도입형
- 조직 및 인력의 준비도는 높으나 분석업무 및 기법이 부족함
4) 준비도 높음 / 성숙도 높음 = 확산형
- 6가지 분석 구성요소를 모두 갖추고 있으며, 지속적 확산이 가능
3.9 분석 과제에서 고려해야할 5가지 요소
- 데이터 크기, 속도, 데이터 복잡도, 분석 복잡도, 정확도/정밀도
3.10 프로젝트 관리 지식 체계 10가지 영역
- 통합, 범위, 시간(일정), 원가, 품질, 인적자원, 의사소통, 리스크(위험), 조달, 이해관계자
3.11 분석 거버넌스 체계 구성요소
- 조직, 프로세스, 시스템, 데이터, 분석관련 교육 및 마인드 육성체계
3.12 빅데이터 거버넌스
1) 빅데이터 거버넌스 프레임워크
- 데이터 거버넌스: 전사 차원에서 데이터에 대해 표준화된 관리 체계 수립
2) 빅데이터 거버넌스
- 빅데이터 효율적 관리
- 데이터 최적화
- 데이터 신뢰성 검토
- 관리책임자 지정
- 정보보호
- 외부데이터 통합 관리
3) 데이터 거버넌스 구성요소
- 원칙, 조직, 프로세스
4) 데이터 거버넌스 주요 관리대상
- 마스터 데이터: 기준이 되는 자료
- 메타 데이터: 데이터에 대한 설명
- 데이터 사전: 데이터에 대한 정보
5) 데이터 거버넌스 체계
- 데이터 표준화: 메타 데이터 및 사전 구축
- 데이터 관리체계: 메타 데이터 및 사전의 관리원칙 구축
- 저장소 관리: 저장소의 구성 및 관리
- 표준화 활동: 모니터링 및 표준 개선 활동