21_빅데이터 분석기사

02_데이터 분석계획(10)_SEMMA분석 방법론

chuu_travel 2026. 3. 4. 20:47
728x90

6) SEMMA 분석 방법론

SEMMA(Sample, Explore, Modify, Model and Assess)는 SAS Institute의 주도로 만들어진 기술과 통계 중심의 데이터 마이닝 프로세스이다.

 

①SEMMA 분석 방법론의 특징

● SAS Institute의 데이터 마이닝 도구와 손쉽게 접목하여 활용할 수 있다.

주로 데이터 마이닝 프로젝트의 모델링 작업에 중점을 두고 있다.

 

②SEMMA 분석 방법론의 분석 절차

단계 내용 세부요소/산출물
추출
(Sample)
분석할 데이터 추출
모델을 평가하기 위한 데이터 준비
통계적 추출
조건 추출
탐색
(Explore)
분석용 데이터 탐색
데이터 오류 확인
비즈니스 이해
이상 현상 및 변화 탐색

 그래프
 기초통계
Clustering
변수 유의성 및 상관분석

수정
(Modify)
분석용 데이터 변환
데이터 표현 극대화(시각화)
파생 변수 생성, 선택, 변형

 수량화
 표준화
 변환
 그룹화

모델링
(Model)
분석 모델 구축
패턴 발견
모델링과 알고리즘의 적용

Neural Network
Decision Tree
Logistic Regression
통계기법

평가
(Assess)
모델 평가 및 검증
서로 다른 모델 동시 비교
Next Step 결정

Report
Feedback
모델 검증 자료