4) 생성된 분석 변수의 정제를 위한 점검항목 정의
분석 기회 단계에서 도출된 문제 인식, 해결을 위한 개념적 대안 설계를 통해 도출된 데이터에 대해 가용성을 평가하고 점검항목을 정의한다.
① 분석 변수 점검의 필요성
● 데이터의 가용성과 적정성이 부족할 경우 문제 해결 및 활용 시나리오 적용을 통해 가치 있는 결과를 도출하기 어렵다.
● 실행 전 분석 변수를 논리적 지표에 따라 점검한다.
② 분석 변수 점검항목 정의
● 데이터 분석 도구, 활용 등 다각도로 분석 변수 점검 항목을 정의한다.
● 데이터 수집 시 분석 적합성과 데이터 확보 유무를 고려하여 기획한다.
● 데이터의 중복, 범위 연관성 등을 도출할 수 있는 방법을 기획한다.
● 데이터 적합성을 고려하여 수행할 수 있는 분석 검증 방법을 기획한다.
● 수집 데이터에 존재할 수 있는 데이터의 특징 변수 도출 방법을 기획한다.
● 수집 데이터 변수 간 결합 가능 여부를 검증할 수 있는 방법을 기획한다.
● 수집 데이터의 타당성 검증 방법을 기획한다.
ー 데이터 수집에 투입되는 비용 및 시간을 조사한다.
ー 데이터 수집 기법의 기술적 타당성 검증 방법을 기획한다.
| 분류 | 점검항목 | 내용 |
| 데이터 수집 | 데이터 적정성 | 문제 해결에 적절한 분석 변수인가? |
| 데이터 가용성 | 수집 가능한 데이터인가? | |
| 대체 분석 데이터 유무 | 수집 불가능한 데이터인 경우 간접적으로 연관성 있는 데이터로 대체 가능한가? | |
| 데이터 적합성 | 데이터 중복 | 중복이나 노이즈 제거, 데이터값 존재 유무 등 기초 데이터 클렌징 수행 가능한가? |
| 분석 변수별 범위 | 분석 변수별 측정될 수 있는 min/max를 확인하였는가? | |
| 분석 변수별 연관성 | 수집된 데이터 간 충분 간격으로 연관성이 있는가? | |
| 데이터 내구성 | 데이터 노이즈, 왜곡이 발생하였을 때 예측 성능을 보장 할 수 있는가? | |
| 특징 변수 | 특징 변수 사용 | 분석 변수 중 바로 특징 변수로 사용할 수 있는 가능성이 있는가? |
| 변수 간 결합 가능 여부 | 분석 변수를 결합하여 교차 검증(Cross Validation)을 할 수 있는가? | |
| 타당성 | 편익/비용 검증 | 분석 비용과 분석 후 결과가 추가적 매출, 수익 등에 기여할 수 있는가? |
| 기술적 타당성 | 다양한 분석 툴을 활용할 수 있는 분석 변수를 도출하였는가? |
5) 생성된 분석 변수의 전처리 방법 수립
데이터 정제를 위한 점검항목 정의 후 이에 맞게 논리적 모형 설계를 데이터 전처리 방법을 수립한다.
① 데이터 전처리 수행
● 다양한 비즈니스 도메인에서 추출한 정형, 반정형, 비정형데이터를 분석 및 처리에 적합한 데이터 형태로 조작한다.
● 데이터 정제, 통합, 축소, 변환을 반복적으로 수행하여 분석 변수로 활용하는 방안을 수립할 수 있다.
| 처리기법 | 내용 |
| 데이터 정제(Cleaning) | 결측값을 채우거나 이상치를 제거하는 과정을 통해 데이터의 신뢰도를 높이는 작업 |
| 데이터 통합(Integration) | 다수의 정제된 데이터를 통합하여 표현하는 작업 |
| 데이터 축소(Reduction) | 데이터 집합의 크기는 더 작지만 분석 결과는 같은 데이터 집합으로 만드는 작업 |
| 데이터 변환(Transformation) | 데이터 마이닝의 효율을 높이기 위한 변환 및 변경 작업 |
② 빅데이터 분석 프로세스 수행
● 다양한 업무와 도메인이 포함되어 있어 완전히 자동화하여 처리하는 것은 어렵다.
● 데이터 전처리 과정은 정제와 통합을 통해 약 60~80% 처리된다.
③ 데이터 전처리 방안 수립
● 데이터 Cleaning, Integration, Transformation, Reduction을 반복적으로 수행하여 분석 변수로 활용하는 방안을 수립할 수 있다.
| 절차 | 세부 활동 | 내용 |
| 정제 (Cleaning) |
모순점 포착 | ● 데이터 입력의 실수 확인 ● 데이터 표현의 모순 확인 ● 일치하지 않는 코드 사용 여부 ● 원래의 의도와 다른 목적으로 사용 여부 |
| 메타데이터 확인 | ● 데이터 타입과 속성 확인 ● 값의 범위 확인 ● 속성의 표준 편차 확인 ● 데이터 이상치 및 결측값 확인 |
|
| 통합/축소 (Integration) |
데이터 통합 | ● 데이터 통합 ● 스키마 통합 ● 개체 식별 및 데이터값 충돌/감지 및 해결 ● 데이터 통합에서 중복 처리 ● 데이터 통계 생성 |
| 변환 (Transformation) |
데이터 변환 | ● 데이터에서 노이즈 제거 ● 새로운 속성 추가 ● 데이터에 요약 작업 또는 집계 작업 ● 데이터 정규화 |
6)생성 변수와 검증 방안 수립
① 분석 변수의 데이터 검증 방안 수립
● 모든 개별 데이터에 대한 타당성 보장보다는 빅데이터 개념 및 특성 측면에서 관리되어야 하는 항목과 수준에 대해 품질 검증을 정의한다.
| 구분 | 품질 관리 접근 방법 |
| 대량 데이터 | ● 데이터 사용자 오류는 무시 ● 데이터 타당성에 치명적인 예외 상황만 탐지 |
| 정밀 데이터 | ● 개별 데이터에 대한 타당성 검증은 환경 및 상황에 따라 판단 ● 데이터 전체가 나타내는 의미를 중심으로 검증 기준 정의 |
| 데이터 출처 불명확 | ● 명확한 목적이나 사전 통제 없이 생산된 데이터에 대한 별도 품질 기준 정의 |
● 빅데이터 품질 관리 및 검증은 정확성보다는 데이터의 양이 충분한지에 대한 충분성 개념하에 조직의 비즈니스 영역 및 목적에 따라 검증한다.
| 구분 | 품질 검증 전략 |
| 정확성(Accuracy) | ● 데이터 사용 목적에 따라 데이터 정확성의 기준 상이하게 적용 |
| 완전성(Completeness) | ● 필요한 데이터인지 식별하는 수준으로 품질 요소 적용 |
| 적시성(Timeliness) | ● 소멸성이 강한 데이터에 대한 품질 기준 판단 ● 웹로그 데이터, 트윗 데이터 등 지속적으로 생성 소멸하는 데이터에 대한 품질 기준 수립 |
| 일관성(Consistency) | ● 동일한 데이터의 경우에도 사용 목적에 따라 데이터의 의미가 달라지기 때문에 분석 요건에 따른 검증 요소 적용 |
② 데이터 검증 체계 수립
● 빅데이터 품질 및 데이터 검증 체계를 수립한다.
ー 수집한 데이터의 출처가 명확한지 검증한다.
ー 중복된 데이터가 존재하는지, 정보 활용에 컴플라이언스 이슈가 없는지 데이터 관리 대상 선별을 검증한다.
ー 데이터의 다양성이 확보되었는지, 데이터셋이 충분한지 검증한다.
ー 주요 품질 지표의 조건을 만족하는지, 분석, 검증, 테스트 데이터가 분리되어 있는지 주요 품질 지표를 분석 및 검증한다.
● 분석 변수 데이터 검증 방안을 수립한다.
ー 품질 관리를 통해 데이터 중복성, 불일치성 등 생성된 분석 변수에 대한 데이터 검증 방안을 수립한다.
'21_빅데이터 분석기사' 카테고리의 다른 글
| 02_데이터 분석계획(5)_분석 목표 정의서 (0) | 2026.03.08 |
|---|---|
| 02_데이터 분석계획(4)_분석 절차와 작업 계획 (0) | 2026.03.08 |
| 02_데이터 분석계획(2)_데이터 확보 계획 (1) | 2026.03.07 |
| 02_데이터 분석계획(1)_분석 작업 계획_분석 작업 개요 (0) | 2026.03.06 |
| 02_데이터 분석계획(13)_데이터 분석 수준 진단 (0) | 2026.03.06 |