21_빅데이터 분석기사

02_데이터 분석계획(2)_데이터 확보 계획

chuu_travel 2026. 3. 7. 18:54
728x90

1) 데이터 확보를 위한 사전 검토사항

① 필요 데이터 정의

● 분석 목적에 맞는 데이터를 정의하고, 필요한 데이터를 확보할 수 있는지 확인하여야 하며, 확보할 수 없다면 대안을 함께 고려하여야 한다. 

● 기업 내부 및 외부 공공기관이나 협력관계의 타 기업 담당자, 전문가 등 이해관계자들과 확보 가능한 데이터의 목록과 기대효과 등을 작성한다.

 

② 보유 데이터의 현황파악

사전에 정의한 데이터의 존재 여부와 해당 데이터가 최신성을 보장하는지 확인한다.

분석 품질을 보장할 만큼 데이터 품질이 우수한지, 충분한 양이 존재하는지 확인한다.

 

③ 분석 데이터의 유형

● 분석 데이터 확보를 위해 수집 대상 데이터의 유형을 고려해야 한다.

어떤 데이터를 어떤 기법을 이용하여 분석할 것인지 수립된 계획에 따라 데이터의 유형을 선택하고 변수를 정의해야 한다.

 

④ 편향되지 않고 충분한 양의 데이터 규모

데이터 분석 기법에 따라 훈련(Training) 데이터셋, 검증(Validation)데이터셋, 테스트(Test)데이터셋이 필요할 수 있다.

ー따라서 신뢰성 높은 데이터 분석 모형 개발과 정확한 데이터 분석을 위해 3가지 데이터셋으로 나누어 사용할 만큼 충분한 데이터가 확보되어야 한다.

 

⑤ 내부 데이터의 사용

필요 데이터에 대한 데이터 목록(변수 명칭, 설명, 형태, 기간, 용량, 권한 등)을 작성한다.

필요 데이터에 대한 관련 법률이나 보안적인 요소들을 확인하고, 개인정보일 경우 비식별 조치방안을 함께 고려한다.

필요 데이터의 관리 권한이 다른 부서에 있는 경우 협의를 통해 데이터 공유 가능 여부를 확인한다.

 

⑥ 외부 데이터의 수집

필요 데이터에 대한 데이터 목록을 데이터를 보유한 기업의 이름과 데이터 제공 방법(Open API, 복제 등)까지 고려햐여 작성한다.

필요 데이터의 수집이 관련 법률이나 제도상 제약이 없는지 검토한다.

필요 데이터에 대하여 보유 기업으로부터 데이터 제공 가능여부와 구매 비용등을 협의한다.

 

⑦ 데이터 수집 방법

설문조사: 설문조사는 사람들의 의견이나 행동에 대한 데이터를 수집하는 일반적인 방법으로 온라인 설문지, 전화 인터뷰, 직접면접 등의 형태로 진행될 수 있으며, 개별 질문이나 척도를 사용하여 응답자의 의견을 수집한다.

 

관찰: 관찰은 사람들의 행동, 사건 또는 상황을 직접 관찰하여 데이터를 수집하는 방법이다. 관찰은 실시간 또는 사전에 녹화된 비디오 또는 사진 등을 통해 이루어질 수 있으며, 이 방법은 사람들의 실제 행동을 측정하고 분석할 때 유용하다.

 

실험: 실험은 특정 가설을 검증하기 위해 조작된 조건에서 데이터를 수집한다.

실험은 종종 실험 그룹과 대조 그룹으로 나뉘며, 서로 다른 처리를 받는 조건에서 차이를 비교하여 결과를 분석한다.

 

웹 크롤링: 웹 크롤링은 웹 페이지를 자동으로 탐색하고 데이터를 추출하는 과정이다. 웹 크롤러는 웹사이트에서 정보를 수집하고, 텍스트, 이미지, 링크 등을 추출하여 분석한다.

 

소셜 미디어 분석: 소셜 미디어 플랫폼에서 제공되는 데이터를 활용하여 트랜드, 의견, 감성 등을 분석하는 방법이다. 특정 키워드, 해시태그, 사용자 활동등을 모니터링하여 데이터를 수집하고 분석할 수 있다.

 

데이터베이스 및 기존 데이터 활용: 공공 데이터베이스, 기업 내부 데이터베이스, 과거 연구 등을 활용하여 데이터를 수집하고 분석할 수 있다.

 

FGI(Focused Group Interview, 집단면접): FGI는 작은 그룹의 참가자들을 모아 집단적인 토론을 통해 의견과 경험을 수집하는 방법으로 일반적으로 6~12명의 참가자로 구성된 집단이 모여 진행되며, 주제와 관련된 질문들이 제시되어 참가자들은 서로의 의견을 나누고 토론한다. 이러한 토론은 구성원 간의 상호작용과 아이디어 교환을 통해 보다 깊은 인사이트를 얻을 수 있도록 도와준다.

 

스크래퍼(Scraper): 스크래퍼는 웹 스크래핑(Web Scraping)을 수행하는 프로그램이나 도구이다. 웹 스크래핑은 웹 페이지의 내용을 자동으로 추출하여 데이터를 수집하는 과정이며, 스크래퍼는 웹사이트의  HTML구조를 분석하고 필요한 정보를 추출하는 기능을 가진다.

 

2) 분석에 필요한 변수 정의

데이터 분석 요건에 따라 도출된 활용 시나리오에 적합한 데이터의 유형 및 분석 변수를 정의한다.

① 데이터 수집 기획

● 데이터 수집 기법을 활용하여 필요 데이터를 배치 자동화로 수집한다.

ー 데이터 수집 타깃 시스템 또는 사이트를 선별한다.

ー 수집 대상 화면, 텍스트를 위해 인덱스 생성을 기획한다.

ー 대상 시스템별 데이터 수집을 위한 크롤러를 준비하고 저장소를 기획한다.

ー 크롤링 주기, 대상 범위를 확정하고 데이터 수집을 기획한다.

 

데이터 거래소, 공공 데이터에 적재된 분야별 데이터를 분류하고 선별한다.

ー 공공 데이터 사이트에 접속하여 필요한 도메인의 데이터를 검색한다.

ー 검색한 공공 데이터 중 분석 대상이 되는 도메인의 우선순위를 정의한다.

ー 필요한 데이터를 다운로드받아 저장할 수 있도록 계획한다.

ー 저장한 데이터를 NoSQL 데이터에 적재하고 정제할 수 있도록 설계한다.

ー NoSQL에 적재한 데이터를 정제할 수 있도록 기획한다.

 

② 분석 변수 정의

빅데이터의 특징을 고려하여 분석 변수 생성을 기획한다.

ー 상관관계 분석을 위한 데이터 연속성 범주 등을 고려하여 분석 변수를 정의한다.

분석 변수 유형과 형성 알고리즘을 이용하여 분석 유형을 도출한다.

ー 변수의 분포를 구별하는 정도에 따라 순수도(purity) 또는 불순도(impurity)에 의해서 측정 구간별 순수도를 가장 높이는 분석 변수를 도출한다.

 

3) 분ㅅ걱 변수 생성 프로세스 정의

분석 대상에 대해 객관적으로 인식하고 논리적 인과관계 분석 및 데이터 간 상관관계 분석을 위한 분석 변수 생성 프로세스를 정의한다.

 

① 객관적 사실(Fact)기반의 문제 접근

명확한 문제 인식을 위하여 분석적이고 가정(Why)에 의한 접근 방법과 함께 무엇(What)이 문제인지를 파악하여 객관적 관찰 데이터 유형을 식별한다.

 

② 데이터의 상관 분석

빅데이터 분석 대상의 연관성 분석을 통해 데이터 집합 간 통계적 관련성을 분석할 수 있는 변수를 생성하고 변수의 척도를 분류한다.

 

● 변수 간 밀접한 관련성을 갖고 변화하는가를 분석하는 기법인 연관성 개념을 활용하여 변수 척도에 따른 연관성 분석을 수행한다.

 

● 분석 변수를 기반으로 연관성을 분석하여 데이터 간 숨겨진 관계성을 파악하고, 가치있는 데이터를 도출할 수 있도록 분석 변수를 생성한다.

 

③ 프로토타입을 통한 분석 변수 접근

● 의미있는 분석 변수를 생성하기 위하여 프로토타이핑 접근법을 통해 결과를 확인하며, 반복적으로 개선하여 필요한 데이터를 식별하고 구체화한다.

 

● 프로토타이핑 모델로 반복적으로 개선하여 의미있는 데이터와 분석 변수를 생성함으로써 비정형 데이터가 갖는 문제점을 해소한다.

 

▶프로토타입 접근의 필요성

필요성 내용
문제인식 수준의 확인 사용자 분석가 간 요구 사항과 문제 해결에 대한 인식 수준 차이를 확인할 수 있다.
문제 해결에 대한 명확한 목표 확인 및 필요 변수를 정의한다.
필요 데이터 존재 여부 수집 데이터양이 부족한 경우, 재수집 방법, 대체 데이터 등에 대한 사용자와 분석가 간 반복적 확인을 통해 협의한다.
사용 목적에 따른 가변성 검증 데이터의 가치는 지속적으로 변화할 수 있다.
데이터의 사용 목적과 범위에 따라 분석 변수를 재정의한다.
데이터의 사용 범위를 확대 또는 축소할 수 있다.