21_빅데이터 분석기사

02_데이터 분석계획(3)_데이터 확보 계획

chuu_travel 2026. 3. 8. 09:50
728x90

4) 생성된 분석 변수의 정제를 위한 점검항목 정의

분석 기회 단계에서 도출된 문제 인식, 해결을 위한 개념적 대안 설계를 통해 도출된 데이터에 대해 가용성을 평가하고 점검항목을 정의한다.

 

① 분석 변수 점검의 필요성

● 데이터의 가용성과 적정성이 부족할 경우 문제 해결 및 활용 시나리오 적용을 통해 가치 있는 결과를 도출하기 어렵다.

실행 전 분석 변수를 논리적 지표에 따라 점검한다.

 

② 분석 변수 점검항목 정의

데이터 분석 도구, 활용 등 다각도로 분석 변수 점검 항목을 정의한다.

데이터 수집 시 분석 적합성과 데이터 확보 유무를 고려하여 기획한다.

데이터의 중복, 범위 연관성 등을 도출할 수 있는 방법을 기획한다.

데이터 적합성을 고려하여 수행할 수 있는 분석 검증 방법을 기획한다.

수집 데이터에 존재할 수 있는 데이터의 특징 변수 도출 방법을 기획한다.

● 수집 데이터 변수 간 결합 가능 여부를 검증할 수 있는 방법을 기획한다.

수집 데이터의 타당성 검증 방법을 기획한다.

ー 데이터 수집에 투입되는 비용 및 시간을 조사한다.

ー 데이터 수집 기법의 기술적 타당성 검증 방법을 기획한다.

분류 점검항목 내용
데이터 수집 데이터 적정성 문제 해결에 적절한 분석 변수인가?
데이터 가용성 수집 가능한 데이터인가?
대체 분석 데이터 유무 수집 불가능한 데이터인 경우 간접적으로 연관성 있는 데이터로 대체 가능한가?
데이터 적합성 데이터 중복 중복이나 노이즈 제거, 데이터값 존재 유무 등 기초 데이터 클렌징 수행 가능한가?
분석 변수별 범위 분석 변수별 측정될 수 있는 min/max를 확인하였는가?
분석 변수별 연관성 수집된 데이터 간 충분 간격으로 연관성이 있는가?
데이터 내구성 데이터 노이즈, 왜곡이 발생하였을 때 예측 성능을 보장 할 수 있는가?
특징 변수 특징 변수 사용 분석 변수 중 바로 특징 변수로 사용할 수 있는 가능성이 있는가?
변수 간 결합 가능 여부 분석 변수를 결합하여 교차 검증(Cross Validation)을 할 수 있는가?
타당성 편익/비용 검증 분석 비용과 분석 후 결과가 추가적 매출, 수익 등에 기여할 수 있는가?
기술적 타당성 다양한 분석 툴을 활용할 수 있는 분석 변수를 도출하였는가?

 

5) 생성된 분석 변수의 전처리 방법 수립

데이터 정제를 위한 점검항목 정의 후 이에 맞게 논리적 모형 설계를 데이터 전처리 방법을 수립한다.

 

① 데이터 전처리 수행

● 다양한 비즈니스 도메인에서 추출한 정형, 반정형, 비정형데이터를 분석 및 처리에 적합한 데이터 형태로 조작한다.

● 데이터 정제, 통합, 축소, 변환을 반복적으로 수행하여 분석 변수로 활용하는 방안을 수립할 수 있다.

처리기법 내용
데이터 정제(Cleaning) 결측값을 채우거나 이상치를 제거하는 과정을 통해 데이터의 신뢰도를 높이는 작업
데이터 통합(Integration) 다수의 정제된 데이터를 통합하여 표현하는 작업
데이터 축소(Reduction) 데이터 집합의 크기는 더 작지만 분석 결과는 같은 데이터 집합으로 만드는 작업
데이터 변환(Transformation) 데이터 마이닝의 효율을 높이기 위한 변환 및 변경 작업

 

 

② 빅데이터 분석 프로세스 수행

● 다양한 업무와 도메인이 포함되어 있어 완전히 자동화하여 처리하는 것은 어렵다.

● 데이터 전처리 과정은 정제와 통합을 통해 약 60~80% 처리된다.

 

③ 데이터 전처리 방안 수립

● 데이터 Cleaning, Integration, Transformation, Reduction을 반복적으로 수행하여 분석 변수로 활용하는 방안을 수립할 수 있다.

절차 세부 활동 내용
정제
(Cleaning)
모순점 포착 ● 데이터 입력의 실수 확인
● 데이터 표현의 모순 확인
● 일치하지 않는 코드 사용 여부
● 원래의 의도와 다른 목적으로 사용 여부
메타데이터 확인 ● 데이터 타입과 속성 확인
● 값의 범위 확인
● 속성의 표준 편차 확인
● 데이터 이상치 및 결측값 확인
통합/축소
(Integration)
데이터 통합 ● 데이터 통합
● 스키마 통합
● 개체 식별 및 데이터값 충돌/감지 및 해결
● 데이터 통합에서 중복 처리
● 데이터 통계 생성
변환
(Transformation)
데이터 변환 ● 데이터에서 노이즈 제거
● 새로운 속성 추가
● 데이터에 요약 작업 또는 집계 작업
● 데이터 정규화

 

6)생성 변수와 검증 방안 수립

① 분석 변수의 데이터 검증 방안 수립

● 모든 개별 데이터에 대한 타당성 보장보다는 빅데이터 개념 및 특성 측면에서 관리되어야 하는 항목과 수준에 대해 품질 검증을 정의한다.

구분 품질 관리 접근 방법
대량 데이터 ● 데이터 사용자 오류는 무시
● 데이터 타당성에 치명적인 예외 상황만 탐지
정밀 데이터 ● 개별 데이터에 대한 타당성 검증은 환경 및 상황에 따라 판단
● 데이터 전체가 나타내는 의미를 중심으로 검증 기준 정의
데이터 출처 불명확 ● 명확한 목적이나 사전 통제 없이 생산된 데이터에 대한 별도 품질 기준 정의

 

● 빅데이터 품질 관리 및 검증은 정확성보다는 데이터의 양이 충분한지에 대한 충분성 개념하에 조직의 비즈니스 영역 및 목적에 따라 검증한다.

구분 품질 검증 전략
정확성(Accuracy) ● 데이터 사용 목적에 따라 데이터 정확성의 기준 상이하게 적용
완전성(Completeness) ● 필요한 데이터인지 식별하는 수준으로 품질 요소 적용
적시성(Timeliness) ● 소멸성이 강한 데이터에 대한 품질 기준 판단
● 웹로그 데이터, 트윗 데이터 등 지속적으로 생성 소멸하는 데이터에 대한 품질 기준 수립
일관성(Consistency) ● 동일한 데이터의 경우에도 사용 목적에 따라 데이터의 의미가 달라지기 때문에 분석 요건에 따른 검증 요소 적용

 

② 데이터 검증 체계 수립

● 빅데이터 품질 및 데이터 검증 체계를 수립한다.

ー 수집한 데이터의 출처가 명확한지 검증한다.

ー 중복된 데이터가 존재하는지, 정보 활용에 컴플라이언스 이슈가 없는지 데이터 관리 대상 선별을 검증한다.

ー 데이터의 다양성이 확보되었는지, 데이터셋이 충분한지 검증한다.

ー 주요 품질 지표의 조건을 만족하는지, 분석, 검증, 테스트 데이터가 분리되어 있는지 주요 품질 지표를 분석 및 검증한다.

 

● 분석 변수 데이터 검증 방안을 수립한다.

ー 품질 관리를 통해 데이터 중복성, 불일치성 등 생성된 분석 변수에 대한 데이터 검증 방안을 수립한다.