2026/03/04 5

02_데이터 분석계획(11)_빅데이터 분석 방법론

1) 빅데이터 분석 방법론 개요분석 방법론은 응용 서비스 개발을 위한 3계층으로 구성되었다.단계(Phase)● 데이터 분석을 수행하기 위한 절차이다.● 기준선(Baseline)을 설정하고 버전관리를 통해 통제되어야 한다.테스크(Task)● 각 단계별로 수행되어야 하는 세부 업무이다.● 각 태스크가 완료되면 그에 대한 성과를 얻을 수 있다.스텝(Step)● 단기간 내에 수행 가능한 워크패키지(Work Package)이다.● 입력자료, 처리 및 도구, 출력자료로 구성된 단위 프로세스이다. 2) 빅데이터 분석 방법론의 개발 절차① 분석 기획(Planning)분석 기획비즈니스 이해 및 범위 설정● 비즈니스 이해● 프로젝트 범위 설정프로젝트 정의 및 계획 수립● 데이터 분석 프로젝트 정의● 프로젝트 수행 계획 수..

02_데이터 분석계획(10)_SEMMA분석 방법론

6) SEMMA 분석 방법론SEMMA(Sample, Explore, Modify, Model and Assess)는 SAS Institute의 주도로 만들어진 기술과 통계 중심의 데이터 마이닝 프로세스이다. ①SEMMA 분석 방법론의 특징● SAS Institute의 데이터 마이닝 도구와 손쉽게 접목하여 활용할 수 있다.● 주로 데이터 마이닝 프로젝트의 모델링 작업에 중점을 두고 있다. ②SEMMA 분석 방법론의 분석 절차단계내용세부요소/산출물추출(Sample)● 분석할 데이터 추출● 모델을 평가하기 위한 데이터 준비● 통계적 추출● 조건 추출탐색(Explore)● 분석용 데이터 탐색● 데이터 오류 확인● 비즈니스 이해● 이상 현상 및 변화 탐색● 그래프● 기초통계● Clustering● 변수 유의성 및..

02_데이터 분석계획(9)_CRISP-DM분석 방법론

5) CRISP-DM 분석 방법론CRISP-DM(Cross Industry Standard Process for Data Mining)은 계층적 프로세스 모델로써 4계층으로 구성된 데이터 마이닝 프로세스이다. ①CRISP-DM분석 방법론의 4계층● 최상위 레벨: 여러 개의 단계(Phase)로 구성된다.● 일반화 태스크(Generic Tasks): 데이터 마이닝의 단일 프로세스를 완전하게 수행하는 단위이다.● 세분화 태스트(Specialized Tasks): 일반화 태스크를 구체적으로 수행한다.● 프로세스 실행(Process Instances): 데이터 마이닝을 구체적으로 실행한다. ②CRISP-DM 분석 방법론의 분석 절차단계내용세부업무업무이해(Business Understanding)● 비즈니스 관점..

02_데이터 분석계획(8)_KDD분석 방법론

4) KDD분석 방법론KDD(Knowledge Discovery in Database)는 1996년 Fayyad가 통계적인 패턴이나 지식을 탐색하는 데 활용할 수 있도록 체계적으로 정리한 프로파일링 기술 기반의 데이터 마이닝 프로세스이다. ① KDD분석 방법론의 9가지 프로세스1. 분석 대상 비즈니스 도메인의 이해2. 분석 대상 데이터셋 선택과 생성3. 데이터에 포함되어 있는 잡음(Noise)과 이상값(Outlier)등을 제거하는 정제작업이나 선처리4. 분석 목적에 맞는 변수를 찾고 필요시 데이터의 차원을 축소하는 데이터 변경5. 분석 목적에 맞는 데이터 마이닝 기법 선택6. 분석 목적에 맞는 데이터 마이닝 알고리즘 선택7. 데이터 마이닝 시행8. 데이터 마이닝 결과에 대한 해석9. 데이터 마이닝에서 발..

02_데이터 분석계획(7)_데이터 분석 방안

05_데이터 분석 방안 1) 분석 방법론데이터 분석 시 품질확보를 위하여 단계별로 수행해야하는 활동, 작업, 산출물을 정의한다.● 데이터 분석을 효과적으로 수행하기 위하여 이를 체계화한 절차와 방법이 정리된 데이터 분석 방법론의 수립이 필수적이다.● 프로젝트는 한 개인의 역량이나 조직의 우연한 성공에 의해서는 안 되고 일정 품질 수준 이상의 산출물과 프로젝트의 성공 가능성을 제시해야 한다. ① 분석 방법론의 구성요건● 상세한 절차(Procedures)● 방법(Methods)● 도구와 기법(Tools & Techniques)● 템플릿과 산출물(Templates & Outputs)● 어느 정도의 지식만 있으면 활용 가능한 수준의 난이도 ② 분석 방법론의 생성과정(선순환 과정)형식화● 개인의 암묵지가 조직의 ..