1. 빅데이터 개요 및 활용
● 데이터의 정의
- 객관적 사실(Fact): 있는 그대로의 객관적 사실로, 추론과 예측, 전망, 추정을 위한 근거가 됨.
- 상호관계적 가치: 단순한 단일 객체로서의 가치뿐만 아니라, 다른 데이터와의 상호관계 속에서 비로소 의미와 가치를 갖게 되는 것.
● 데이터의 구분
정량적 데이터(Quantitative Data): 주로 숫자로 이루어진 데이터. 수치화되어 있어 비용이 적게 들고 수집 및 분석이 용이함. / 정형, 반정형 데이터 (ex: 온도, 매출액, 재고량 등)
정성적 데이터(Qualitative Data): 문자와 같은 텍스트, 언어, 이미지 등으로 구성되며 함축적 의미를 지님. 형태가 고정되어 있지 않아 수집 및 분석에 많은 시간과 비용이 소모됨. / 비정형 데이터 (ex: 고객 리뷰, 인터뷰 내용, SNS 게시글 등)
● 데이터의 유형
1. 정형 데이터(Structured Data):
- 정해진 형식과 구조에 맞게 저장되도록 구성된 데이터
- 연산 가능
ex) 관계형 DB에 저장되는
데이터, CSV, 스프레드시트
2. 반정형 데이터(Semi-structured Data):
- 데이터 형식과 구조가
비교적 유연
- 스키마 정보를
데이터와 함께 제공
- 연산 불가능
ex) 웹로그, 알람, XML, HTML, JSON, RSS, RDF 등
3. 비정형(Unstructured Data):
- 구조가 정해지지 않은 데이터
- 연산 불가능
ex)이미지, 오디오, 문자, NoSQL
● 데이터의 기능
1. 암묵지: 경험, 개인, 체계화, 외부 표출 안된 무형의
지식 → 전달과 공유 어려움
2. 형식지: 형상화된 유형의 지식 → 전달과 공유 용이
● 지식창조 메커니즘 (노나카 이쿠지로)
1. 공통화(Socialization): 내재화된 지식을 공유
2. 표출화(Externalization): 암묵지를 구체화하여 형식지로
표현
3. 연결화(Combination): 형식지를 재분류하여 체계화
4. 내면화(Internalization): 형식지를 개인이
내재화
● DIKW 피라미드
1. 데이터(Data): 현실에서 수집한 사실 / 값 / 개별 데이터 / 객관적 사실
ex) 음료수가 A마트에서는 1000원이고 B마트에서는
500원이다
2. 정보(Information): 데이터 가공 및 처리 / 관계
분석
ex) B마트에서 더 저렴하게 판매한다.
3. 지식(Knowledge): 정보를 구조화 / 유의미한 정보 분류
/ 경험 내재화 / 고유 결과물
ex) B마트에서 음료수를 사야겠다.
4. 지혜(Wisdom): 근본적 원리 이해 / 창의적
산물
ex) B마트에서 음료수를 저렴하게 판매하니 다른
것도 저렴하겠지.
● 데이터베이스(Database)
정의: 구조화된 정보 또는 데이터의 조직화된 모음 = 데이터
집합
특징: ISSC
1. 통합된 데이터(Integrated Data): 데이터 중복 저장
X
2. 저장된 데이터(Stored Data): 저장매체에 데이터를
저장
3. 공용 데이터(Shared Data): 여러명이 각기 다른
목적으로 데이터를 함께 이용
4. 변화되는 데이터(Changeable Data): 지속적으로 갱신됨
● 데이터베이스 설계 절차
●
● 데이터베이스 시스템
- 데이터 관리 시스템(DataBase Management System, DBMS):
- 데이터베이스 스키마: DB의 구조와 제약조건에 관한 전반적인 명세
- 종류
1. 관계형 DBMS: 데이터를 테이블로 표현하는 모델
2. 객체지향 DBMS: 정보를 객체형태로 표현하는 모델
3. 네트워크 DBMS: 그래프 구조를 기반으로 하는 모델
4. 계층형 DBMS: 트리 구조를 기반으로 하는 모델
● SQL(Structured Query Language) - IBM에서 설계한 언어
- 데이터베이스에 접근할 때 사용하는 언어
- 질의 기능 + 데이터 정의, 조작, 제어 기능
- 테이블 단위 연산 수행
1) 정의어(Data Definition Language, DDL): CREATE, ALTER, DROP
2) 조작어(Data Manipulation Language, DML): SELECT, INSERT, DELETE, UPDATE
3) 제어어(Data Control Language, DCL): GRANT, REVOKE
4) TCL: COMMIT, ROLLBACK
● 데이터베이스 활용 (OLTP vs. OLAP)
1. OLTP(Online Transaction Processing) - 갱신 위주
- 1:n 처리 형태 (1대의
호스트 컴퓨터 - 접속한 n개 단말)
- 데이터를 수시로
갱신하는 프로세스
- 현 시점 데이터만을
관리
2. OLAP(Online Analytical Processing) - 조회 위주
- 정보 위주의 분석
처리
- OLTP에서 처리된
트랜잭션 데이터를 분석
● 기업내부 데이터베이스
1980년대
OLTP: 데이터 처리 중심. 현재 데이터. 데이터 구조 복잡
OLAP: 데이터 분석이 중심. 다차원적인 데이터. 오랜 기간 저장. 데이터 구조 단순
2000년대
CRM: 기업의 고객관계 관리체계
SCM: 기업에서 생산 및 유통 등 모든 공급망을 관리
경영부문 -> 제조부문
ERP: 각종 관리시스템을 하나의 통합시스템으로 구축
BI: 데이터를 정리해 기업의 의사결정에 활용
RTE: 주요 경영정보를 통합관리하는 실시간 경영시스템
금융부문
EAI: 기업내 연관된 어플리케이션을 유기적 연동
EDW: 기존 DW를 전사적으로 확장
유통부문
KMS: 지식관리시스템
RFID: 주파수를 이용해 ID를 식별
사회기반구조
EDI: 서류를 전자신호를 통해 거래처에 전송
VAN: 통신회선을 차용하여 독자적인 네트워크 형성
CALS: 전자상거래 구축을 위한 경영통합정보시스템
● 데이터웨어하우스(Data Warehouse); DW
정의: 데이터 + 분석방법을 포함하여 조직 내 의사결정을
지원하는 정보 관리 시스템 (DB임)
- 일정 시간 데이터를
축적하여 의사결정을 위한 다양한 분석 작업 수행
특징:
1. 주제지향성(Subject-orientation): 고객, 제품 같은 중요한 주제를 중심으로 구성
2. 통합성(Integration): 일관된 형태로 변환 + 전사적 관점 통합
3. 시계열성(Time-variant): 시간 흐름에 따라 적재하여 시계열 분석 가능
4. 비휘발성(Non-volatilization): 데이터가 적재되면 변경/삭제 X, read-only로 사용.
구성요소:
1. 데이터 모델: 주제 중심적으로 구성 / 다차원의
개체-관계형(Entitiy relation) 모델
2. ETL: Extract, Transform, Load / 데이터를 추출, 정제,
가공하여 DW에 적재
3. ODS(Operational Data Store): 다양한 DBMS에서 추출한
데이터를 통합 관리
4. DW 메타데이터: 데이터 모델에 대한 스키마 정보 +
@를 제공
5. OLAP: 사용자가 직접 데이터를 확인하는
솔루션
6. 데이터마이닝: 대용량 데이터로부터 인사이트를
도출하는 방법론
7. 분석 도구: DW에 적재된 데이터를 분석할 수
있는 도구
8. 경영기반 솔루션: 경영의사결정을 지원하기
위한 솔루션
ex) 지식관리시스템 KMS(Knowledge management system), 의사결정지원시스템 DSS(Decision Support system), BI(Business Intelligence)
● 빅데이터
정의: 기존의 데이터 관리 도구로는 수집, 저장, 분석하기 어려울 정도로 방대하고 복잡한 정형, 반정형, 비정형 데이터의 집합. 은 의미로는 이러한 대규모 데이터로부터 의미 있는 가치를 추출하고 결과를 분석하는 기술과 프로세스 전반을 포함
등장 배경:
- 디지털 환경의 확장: 스마트폰, 사물인터넷(IoT), 소셜 미디어(SNS)의 보급으로 일상과 비즈니스 전반에서 데이터 발생량이 폭발적으로 증가
- 저장 및 처리 비용 하락: 클라우드 컴퓨팅의 발전으로 대용량 데이터를 저장하는 매체(스토리지)의 구축 비용이 크게 하락
- 컴퓨팅 성능 및 분석 기술 향상: 하둡(Hadoop)과 같은 분산 처리 기술과 컴퓨팅 성능의 발달로 대규모 비정형 데이터의 빠른 처리가 가능해짐
변화:
1. 사전처리 → 사후처리
2. 표본조사 → 전수조사
3. 데이터의 질 → 양
4. 이론적 인과관계 → 단순 상관관계
특징:
3V:
- Volume(규모): 데이터 양 급격히 증가
- Variety(유형): 데이터 종류와 근원 확대 (정형/반정형 + 비정형)
- Velocity(속도): 데이터 수집 및 처리 속도
고속화
5V:
- Veracity(품질): 데이터의 신뢰성, 정확성, 타당성
보장
- Value(가치): 숨겨진 가치 발굴 중
활용을 위한 3요소:
| 구성요소 | 내용 | 예시 | |
|---|---|---|---|
| 1 | 자원 | - 정형, 반정형, 비정형 데이터 실시간 수집 | 빅데이터 |
| 2 | 기술 | - 대용량 데이터 저장, 관리, 분산 처리 - AI, 데이터 마이닝 - 분석 및 시각화 | 빅데이터플랫폼, AI |
| 3 | 인력 | - 수학, 통계학, 컴퓨터, 경영 분야 전문지식 | 데이터사이언티스트 |
- 테크닉
● 바이트 크기
KB < MB < GB < TB < PB ($2^{50}$) < EB($2^{60}$) < ZB($2^{70}$) < YB($2^{80}$) - 페지요
● 빅데이터 가치측정의 어려움
1. 데이터 활용 방식: 누가 언제 어떻게 쓸지 모르는데 어떻게 측정하나
2. 가치 창출 방식: 기존에 없던 가치를 창출하는데 어떻게 측정하나
3. 분석 기술 발전: 가채년수 개념과 유사. 지금은 모르겠는데 나중에 분석될지도 모르는데 가치를 어떻게 측정하나
4. 데이터 수집 원가: 케바케인데 가치를 어떻게 측정하나
● 빅데이터 영향
기업: 혁신수단 제공, 경쟁력 강화, 생산성 향상
정부: 환경탐색, 상황분석, 미래대응 가능
개인: 목적에 따른 활용
● 데이터 산업
데이터 처리 → 데이터 통합 → 데이터 분석 → 데이터 연결 → 데이터 권리 시대로 진화
1. 데이터 처리 시대: EDPS / 업무 처리의 대상 / 새로운 가치 X
2. 데이터 통합 시대: 데이터 모델링과 DBMS 등장 / DW 도입
3. 데이터 분석 시대: 데이터 폭발적으로 증가 / 하둡, 스파크 등 빅데이터 기술 / AI 등장
4. 데이터 연결 시대: 오픈 API 경제 / API 의무화 추세
5. 데이터 권리 시대: My Data = 내 데이터 권리는 내가 행사한다. / 데이터 독점 방지
구조:
인프라 영역 + 서비스 영역
● 빅데이터 분석조직 구조
1. 집중형: 별도의 전담조직에서 분석 수행 (DSCoE가 조직 그 자체)
2. 분산형: 각 현업부서에서 분석 업무 직접 수행 (DSCoE X)
3. 기능형: 분석 전문 인력을 현업 부서에 배치 (DSCoE는 헤드쿼터 역할)
● 데이터사이언티스트
- 영역 = 분석 + IT + 비즈니스
Analytics: 수학, 통계, 불확실성 모델링 등
IT: 프로그래밍, 고성능 컴퓨팅, DW, DE
Business: 커뮤니케이션, 프레젠테이션, 스토리텔링, 시각화
- 요구역량
Hard skill: 이론적 지식, 분석기술 숙련
Soft skill: 통찰력, 설득력 있는 전달, 협업능력
● 빅데이터 가치 패러다임 변화
- Digitalization -> Connection -> Agency
2. 빅데이터 기술 및 제도
● 빅데이터 플랫폼
정의: 대규모 데이터를 수집, 저장, 처리, 분석하여 유의미한 가치를 추출하고, 이를 기반으로 애플리케이션이나 서비스를 제공할 수 있도록 구축된 통합 IT 인프라 및 소프트웨어 환경.
기능: 다양한 소스(정형/비정형)의 데이터 수집, 대용량 스토리지 제공, 분산 병렬 처리, 기계학습 및 통계 분석 모델링, 데이터 시각화 및 API 제공 등 빅데이터 생명주기 전반을 관리.
계층구조 (상중하):
- 소프트웨어 계층 (Software Layer / SaaS 형태): 데이터 수집 및 정제, 데이터 처리 및 분석, 사용자/서비스 관리
- 플랫폼 계층 (Platform Layer / PaaS 형태): 데이터 및 자원의 관리, 작업 스케쥴링, 프로파일링
- 인프라스트럭처 계층 (Infrastructure Layer / IaaS 형태): 자원의 배치 및 관리, 저장장치 및 네트워크 관리
범위에 따른 구분:
- 광의: 분석 서비스 제공 엔진, 분석 어플리케이션, 분석 서비스 API, 하드웨어
- 협의: 데이터 처리 프레임워크, 분석 엔진, 분석 라이브러리
● 빅데이터 처리과정
데이터(생성) -> 수집 -> 저장(공유) -> 처리 -> 분석 -> 시각화
1. 생성: 내/외부로부터 다양한 형태의 데이터가 지속적으로 발생.
2. 수집: 크롤링, 오픈 API, 스트리밍(Kafka 등) 기술을 활용하여 발생한 데이터를 플랫폼 내부로 가져옴.
3. 저장: 수집된 방대한 데이터를 하둡 분산 파일 시스템(HDFS), 데이터 레이크, NoSQL 등에 안전하고 확장성 있게 보관
4. 처리: 저장된 데이터를 분석 목적에 맞게 정제, 변환, 통합. Hadoop의 MapReduce나 Spark를 통한 분산 병렬 연산 수행
5. 분석: 데이터 마이닝, 기계학습, 텍스트 마이닝 등의 기법을 적용하여 데이터 속 숨겨진 패턴이나 유의미한 인사이트 도출
6. 시각화: 도출된 분석 결과를 차트, 그래프, 대시보드 등으로 시각화하여 사용자가 직관적으로 이해하고 의사결정에 활용하도록 제공
● 빅데이터 저장
1. NoSQL: Not Only SQL / 엄격한 스키마 없이 대규모 비정형 데이터를 유연하고 빠르게 분산 저장 및 처리할 수 있는 비관계형 데이터베이스
ex) MongoDB, Redis, Cassandra, HBase
2. 병렬 데이터베이스 관리 시스템: 다수의 프로세서를 사용하여 하나의 쿼리 작업을 여러 개로 분할해 동시에 처리함으로써 대용량 데이터의 조회 및 분석 속도를 극대화한 시스템.
ex) Teradata, Greenplum, Vertica
3. 분산 파일 시스템: 네트워크로 연결된 여러 대의 서버(노드)에 데이터를 블록 단위로 쪼개어 분산 저장하고 관리하여 마치 하나의 거대한 로컬 폴더처럼 사용하게 하는 시스템
ex) HDFS, GFS(Google File System), Amazon S3
4. 네트워크 저장 시스템: 네트워크를 통해 스토리지 자원을 연결하는 기술로 다수의 서버가 중앙 집중화된 스토리지 자원을 효과적으로 공유하고 확장할 수 있게 함
ex) NAS(Network Attached Storage), SAN(Storage Area Network)
● 빅데이터 처리
1. 분산 시스템 및 병렬 시스템
- 분산 시스템: 네트워크로 연결된 물리적으로 떨어져 있는 여러 컴퓨터가 하나의 작업을 협력하여 수행
- 병렬 시스템: 다수의 프로세서가 메모리를 공유하거나 밀접하게 연결되어 하나의 큰 연산을 동시에 나누어 처리
2. 분산 병렬 컴퓨팅: 대규모 연산을 여러 컴퓨터로 쪼개고, 각 컴퓨터 내에서도 여러 코어를 동원해 동시에 처리하여 작업 속도를 획기적으로 높이는 방식
3. 하둡(Hadoop): 대용량 데이터를 저렴한 범용 서버들로 구성된 클러스터에서 분산 저장하고 분산 처리할 수 있게 해주는 자바 기반의 오픈소스 프레임워크
4. 아파치 스파크(Apache Spark): 디스크 I/O 위주의 하둡의 속도 한계를 극복하기 위해 메모리 위에서 연산을 수행(In-Memory)하여 처리 속도를 극대화한 초고속 분산 데이터 처리 엔진
5. 맵리듀스(MapReduce): 대용량 데이터를 처리하기 위한 프로그래밍 모델. 데이터를 여러 노드로 쪼개어 연산하는 Map 단계와 그 결과물들을 하나로 모아 요약/병합하는 Reduce 단계로 구성
● 빅데이터 분석 방법
1. 탐구 요인 분석(Exploratory Factor Analysis, EFA): 연구자가 사전에 설정한 가설이나 이론적 배경 없이 데이터 변수들 간의 상관관계를 분석하여 내재된 잠재 요인 구조를 탐색하고 찾아내는 기법
2. 확인 요인 분석(Confirmatory Factor Analysis, CFA): 연구자가 사전에 설정한 이론적 모델이나 가설을 기반으로 측정 변수들이 의도한 잠재 요인들을 통계적으로 잘 설명하고 있는지 그 타당성을 검증하는 기법
● 빅데이터와 인공지능
1. 기계학습의 종류/내용/방법/응용영역
1.1. 지도학습(Supervised learning)
- 정의: 정답(Label)이 주어진 데이터를 활용해 모델을 학습
- 방법: 분류, 회귀
- 응용: 스팸 필터링, 이미지 인식, 집값 예측
1.2. 비지도학습(Unsupervised learning)
- 정의: 정답 없이 입력 데이터만으로 데이터의 고유한 구조나 패턴을 발견
- 방법: 군집화, 차원축소
- 응용: 고객 세분화, 추천 시스템
1.3. 준지도학습(Semi-supervised learning)
- 정의: 소수의 정답 데이터와 다수의 정답 없는 데이터를 함께 사용하여 학습 성능을 높이는 방식
- 응용: 웹 페이지 분류, 의료 영상 분석
1.4. 강화학습(Reinforcement learning)
- 정의: 에이전트가 주어진 환경과 상호작용하며 시행착오를 거쳐 보상을 최대화하는 행동 정책(policy)을 학습
- 응용: 알파고, 자율주행, 로봇 제어
2. 기계학습 심화
2.1. 전이학습(Transfer learning)
- 특정 분야에서 방대한 데이터로 미리 학습된 모델(Pre-trained Model)의 지식(가중치)을 가져와, 유사한 다른 문제 해결에 재사용함으로써 학습 속도와 성능을 높이는 기법.
2.2. BERT (Bidirectional Encoder Representations from Transformers)
- 구글이 개발한 모델로, 텍스트의 앞뒤 문맥을 양방향으로 동시에 학습하여 자연어의 의미를 깊이 있게 파악하는 혁신적인 언어 모델.
2.3. 생성적 적대 신경망 (Generative Adversarial Networks, GAN)
- 가짜 데이터를 생성하는 '생성자'와 이를 감별하는 '판별자'가 서로 경쟁(Adversarial)하며 학습해, 실제와 구분이 어려운 정교한 이미지나 텍스트를 만들어내는 알고리즘.
2.4. 오토인코더 (Autoencoder)
- 입력 데이터를 압축하여 핵심 특징만 추출(인코딩)한 뒤, 이를 다시 원래 데이터와 최대한 가깝게 복원(디코딩)하도록 학습하는 인공신경망 (주로 차원 축소나 노이즈 제거, 이상 탐지에 사용). 2.5. 설명 가능한 인공지능 (XAI, eXplainable AI)
- AI 모델이 도출한 결과나 판단의 근거를 사람이 이해할 수 있는 방식으로 해석하고 설명해 주어, AI의 '블랙박스' 현상을 해소하는 기술.
2.6. 기계학습 자동화 (AutoML)
- 데이터 전처리, 알고리즘 선택, 하이퍼파라미터 튜닝 등 복잡하고 반복적인 머신러닝 파이프라인 구축 전 과정을 자동화하여 비전문가도 쉽게 AI 모델을 만들 수 있게 돕는 기술.
2.7. 거대 언어 모델 (Large Language Model, LLM)
- 수십억 개 이상의 방대한 파라미터와 대규모 텍스트 데이터를 기반으로 학습되어, 인간과 유사한 수준으로 텍스트를 이해, 요약, 번역, 생성할 수 있는 초거대 딥러닝 모델 (예: ChatGPT, Gemini).
2.8. Diffusion Model
- 확률적 프로세스를 이용하여 새로운 데이터를 생성하는 방법
● 약인공지능 / 강인공지능 / 초인공지능
약인공지능: 주어진 조건에서만 동작하는 인공지능
강인공지능: 인간과 동일한 사고가 가능한 인공지능, 튜링테스트 통과
초인공지능: 기술적 특이점을 뛰어넘어 인간을 초월한 인공지능
● 경량 딥러닝 학습 기법
- 전이학습: 사전에 훈련된 모델을 재사용하는 학습 방식
- Fine-tuning: 학습된 모델을 특정 타겟에 맞게 재조정
- 지식증류: Teacher network의 지식을 student network에 전달
● 개인정보
- 개인을 알아볼 수 있는 정보 (+ 다른 정보와 쉽게 결합하여 알아볼 수 있는 정보)
● 데이터 3법
1. 개인정보보호법
2. 정보통신망 이용촉진 및 정보보호 등에 관한 법률
3. 신용정보의 이용 및 보호에 관한 법률
● 개인정보 비식별화 조치
1. 가명 처리: 홍길동 -> A씨
2. 총계 처리: 개별 값이 아닌 sum 값 / 임직원 평균 소득
3. 데이터 삭제: 데이터를 아예 삭제
4. 데이터 범주화: 그룹화 / 32세 -> 30대
5. 데이터 마스킹: 가림 / 010-****-**39
● 개인정보 비식별 조치 가이드라인
사전검토 -> 비식별조치 -> 적정성 평가 -> 사후관리
● 개인정보 비식별화 적정성 평가
1. k-익명성: 동일한 식별자 속성 레코드 최소 k개 이상 존재 -> 특정 추론 확률 1/k 이하로
2. l-다양성: k-익명성 보완 / k-익명성 그룹 내 민감 정보 최소 l개 이상 가지도록 구성
3. t-근접성: l-다양성 보완 / 특정 그룹 내 민감 정보 데이터 분포가 전체 데이터 셋의 민감 정보 분포와 비교하여 그 차이가 t 이하가 되도록 구성
● 개인정보 / 가명정보 / 익명정보
익명성 정도: 개인정보 < 가명정보 < 익명정보
가명정보: 추가 정보 없이 특정 개인 알 수 없음
익명정보: 특정 개인 알 수 없음. 자유롭게 활용 가능
● 빅데이터 위기요인 및 통제방안
| 위기요인 | 내용 | 통제방안 | |
|---|---|---|---|
| 1 | 사생활 침해 | 개인정보 데이터를 목적외 사용 | 제공자 동의 -> 사용자 책임 |
| 2 | 책임원칙훼손 | 예측 알고리즘의 희생양이 됨 | 결과 기반 책임원칙 고수 |
| 3 | 데이터 오용 | 잘못된 지표 사용 | 알고리즘 접근허용(알고리즈미스트) |