21_빅데이터 분석기사

02_데이터 분석계획(11)_빅데이터 분석 방법론

chuu_travel 2026. 3. 4. 21:31
728x90

1) 빅데이터 분석 방법론 개요

분석 방법론은 응용 서비스 개발을 위한 3계층으로 구성되었다.

단계(Phase) ● 데이터 분석을 수행하기 위한 절차이다.
● 기준선(Baseline)을 설정하고 버전관리를 통해 통제되어야 한다.
테스크(Task) ● 각 단계별로 수행되어야 하는 세부 업무이다.
● 각 태스크가 완료되면 그에 대한 성과를 얻을 수 있다.
스텝(Step) ● 단기간 내에 수행 가능한 워크패키지(Work Package)이다.
● 입력자료, 처리 및 도구, 출력자료로 구성된 단위 프로세스이다.

 

2) 빅데이터 분석 방법론의 개발 절차

① 분석 기획(Planning)

분석 기획 비즈니스 이해 및 범위 설정 ● 비즈니스 이해
● 프로젝트 범위 설정
프로젝트 정의 및 계획 수립 ● 데이터 분석 프로젝트 정의
● 프로젝트 수행 계획 수립
프로젝트 위험 계획 수립 ● 데이터 분석 위험 식별
● 위험 대응 계획 수립

 

● 비즈니스 이해 및 범위 설정

ー 비즈니스에 대한 이해와 도메인에 대한 문제점을 파악한다.

ー 업무 매뉴얼 또는 업무 전문가의 도움이 필요하다.

ー 향후 프로젝트 진행을 위한 방향을 설정하고, 프로젝트 목적에 부합한 범위를 설정한다.

ー 프로젝트의 범위를 명확하게 파악하기 위해 구조화된 명세서를 작성한다.

 

● 프로젝트 정의 및 계획 수립

ー 모형의 운영 이미지를 설계하고 모형 평가 기준을 설정한다.

ー 프로젝트의 목표 및 KPI, 목표 수준 등을 구체화하여 상세한 프로젝트 정의서를 작성한다.

ー 데이터 확보 계획이나 분석 방법, 일정, 예산, 품질 등을 포함하는 프로젝트 수행 계획서를 작성한다.

ー 프로젝트 산출물을 중심으로 WBS(Work Breakdown Structure)를 작성한다.

 

● 프로젝트 위험계획 수립

ー 프로젝트를 진행하면서 발생 가능한 모든 위험을 식별하여 사전 대응방안을 수립한다.

ー 식별된 위험은 위험의 영향도와 빈도, 발생가능성에 따라 위험의 우선순위를 설정한다.

ー 예상되는 위험에 대한 대응은 회피, 전이 완화, 수용으로 구분하여 위험 관리 계획서를 작성한다.

 

 

② 데이터 준비(Preparing)

데이터 준비 필요 데이터 정의 ● 데이터 정의
● 데이터 획득 방안 수립
데이터 스토어 설계 ● 정형 데이터 스토어 설계
● 비정형 데이터 스토어 설계
데이터 수집 및 정합성 점검 ● 데이터 수집 및 저장
● 데이터 정합성 점검

 

● 필요 데이터 정의

ー 전사 차원에서 필요한 데이터를 정의한다.

ー 정형, 비정형, 반정형 등 모든 내외부 데이터를 대상으로 데이터의 속성, 오너, 고나련 시스템 담당자 등을 포함한 데이터 정의서를 작성한다.

ー 내부 데이터 획득 시 부서 간 업무협조와 개인정보보호 및 정보보안과 관련된 문제점을 사전에 파악한다.

ー 외부 데이터 획득 시 시스템 간 다양한 인터페이스 및 법적 이슈를 고려한다.

ー 구체적인 데이터 획득방안을 상세하게 수립하여 혹시 모를 프로젝트의 지연을 방지한다.

 

● 데이터 스토어 설계

ー 전사 차원의 데이터 스토어를 설계한다.

ー 정형, 비정형, 반정형 데이터를 모두 저장할 수 있도록 설계한다.

ー 데이터 효율적인 저장과 활용을 위해 데이터 스토어의 논리적, 물리적 설계를 구분하여 수행한다.

 

● 데이터 수집 및 정합성 점검

ー 크롤링, 시스템 간 실시간 처리, 배치 처리, 데이터베이스 간 연동, API를 이용한 개발, ETL도구 활용, 스크립트 작성 등 다양한 방법이 있다.

ー 데이터 거버넌스에 근거하여 메타데이터 및 데이터 사전 등이 작성되어 적용되고 있는지 주기적으로 확인한다.

ー 데이터의 품질을 확보하기 위한 정합성 검증을 실시하며, 이를 위해 데이터 스토어 품질 점검을 수행한다.

ー 데이터 품질개선이 필요한 부분에 대하여 보완 작업을 진행한다.

 

③ 데이터 분석(Analyzing)

데이터 분석 분석용 데이터 준비 ● 비즈니스 룰 확인
● 데이터셋 준비
텍스트 분석 ● 텍스트 데이터 확인및 추출
● 텍스트 데이터 분석 
탐색적 분석 ● 탐색적 데이터 분석
● 데이터 시각화 스텝
모델링 ● 데이터 분할
● 데이터 모델링
● 모델 적용 및 운영 방안
모델 평가 및 검증 ● 모델 평가
● 모델 검증

 

● 분석용 데이터 준비

ー 프로젝트의 목표를 정확하게 인식하고 세부적인 비즈니스 룰을 파악한다.

ー 분석에 필요한 데이터의 범위를 확인하여 데이터베이스나 구조화된 형태로 구성한다.

ー 필요한 경우 적절한 가공을 통하여 입력 데이터로 사용될 수 있도록 한다.

ー 분석용 작업 공간과 전사 차원의 데이터 스토어로 분리할 수도 있다.

 

● 텍스트 분석

ー 데이터 스토어에서 필요한 텍스트 데이터를 추출하여 다양한 기법으로 분석하고 모형을 구축한다.

ー 텍스트 분석 결과는 모델링 태스크와 연동하여 프로젝트 목적에 부합하는 최종 모형을 구축한다.

ー 구축된 모형은 텍스트 시각화 도구로 모형의 의미 전달을 명확화한다.

 

● 탐색적 분석

ー 분석용 데이터셋에 대한 정합성 검토, 데이터 요약, 데이터 특성을 파악하고 모델링에 필요한 데이터를 편성한다.

ー 다양한 관점으로 평균, 분산 등 기초 통계량을 산출하여 데이터의 분포와 변수간의 관계 등 데이터 자체의 특성과 통계적 특성을 파악한다.

ー 시각화를 탐색적 데이터 분석을 위한 도구로 활용하여 데이터의 가독성을 명확히 하고 데이터의 형상 및 분포 등 데이터 특성을 파악한다.

ー모델링 또는 향후 시스템 구현을 위한 사용자 인터페이스 또는 프로토타입으로 시각화를 활용한다.

ー모형의 시스템화를 위한 시각화를 목적으로 활용할 경우 시각화 기획, 시각화 설계, 시각화 구현 등 별도의 프로세스를 따라 진행이 필요하다.

 

● 모델링

ー 모델링을 효과적으로 진행하기 위하여 사전에 데이터셋을 학습용과 테스트용으로 분할하여 준비한다.

ー 모형에 적용하는 기법에 따라 교차검증을 수행하거나 앙상블 기법을 적용할 경우 데이터 분할 또는 검증 횟수, 생성 모형 개수 등의 설정이 필요하다.

ー 기계학습 등을 이용한 데이터 모델링은 훈련용 데이터를 활용하여 분류, 예측, 군집 등의 모형을 만들어 가동중인 운영 시스템에 적용할 수 있다.

ー 필요한 경우 비정형 데이터 분석결과를 종합적으로 활용하여 프로젝트 목적에 맞는 통합 모델링을 수행할 수 있다.

ー 개발된 모형을 활용하기 위해 상세한 알고리즘 설명서 작성과 모니터링 방안이 필요하다.

ー알고리즘 설명서는 상황에 따라 의사코드(Pseudocode)수준으로 상세히 작성하여야 한다.

ー개발된 모형의 안정적인 운영을 위한 모니터링 방안을 수립하여야 한다.

 

● 모델 평가 및 검증

ー 프로젝트 정의서의 평가 기준에 따라 모형의 완성도를 평가한다.

ー 품질관리 차원에서 모형 평가 프로세스를 진행한다.

ー 모형 결과 보고서 내의 알고리즘을 파악하고 테스트용 데이터나 검증을 위한 별도의 데이터를 활용하여 모형의 객관성과 실무 적용성을 검증한다.

ー 요구되는 성능 목표에 미달하는 경우 모형 듀닝 작업을 수행한다.

 

④ 시스템 구현(Developing)

시스템 구현 설계 및 구현 ● 시스템 분석 및 설계
● 시스템 구현
시스템 테스트 및 운영 ● 시스템 테스트
● 시스템 운영 계획

● 설계 및 구현

ー 시스템 및 데이터 아키텍처와 사용자 인터페이스 설계를 진행한다.

ー 가동 중인 시스템에 적용하기 위해서는 운ㄴ영 시스템에 대한 분석이 선행되어야 한다.

ー 사용 중인 정보시스템 개발방법론을 응용하여 적용 가능하다.

ー 시스템 설계서를 바탕으로 BI 패키지를 활용하거나 프로그래밍을 통하여 모형을 구현한다.

 

● 시스템 테스트 및 운영

ー 단위테스트, 통합 테스트, 시스템 테스트 등을 실시한다.

ー 시스템 테스트는 품질관리 차원에서 진행함으로써 적용된 시스템의 객관성과 완전성을 확보한다.

ー 시스템 운영자, 사용자를 대상으로 필요한 교육을 실시한다.

ー 시스템 운영계획을 수립한다.

 

⑤평가 및 전개(Deploying)

평가 및 전개 모델 발전계획 수립 ● 모델 발전계획
프로젝트 평가 및 보고 ● 프로젝트 성과 평가
● 프로젝트 종료

 

● 모델 발전계획 수립

ー 모형의 생명주기를 설정하고 주기적인 평가를 실시하여 모형을 유지보수하거나 재구축하기 위한 방안을 마련한다.

ー 모형 업데이트를 자동화하는 방안을 수립하여 적용할 수 있다.

ー 발전계획을 상세하게 수립하여 모형의 계속성을 확보해야 한다.

 

● 프로젝트 평가 및 보고

ー 프로젝트 성과를 정량적 성과, 정성적 성과로 나눠 성과 평가서를 작성한다.

ー 프로젝트 진행과정에서 산출된 지식이나 프로세스 등 산출물을 자산화한다.

ー 프로젝트 최종 보고서를 작성하여 보고한 후 종료한다.