728x90
데이터 과학 프로젝트의 진행과정
- 데이터 수집(python)
- 데이터 가공(pandas/numpy)
- 데이터 분석(DV + EDA)
- 탬색적 데이터 분석(exploratory data analysis)
- 데이터를 이해하고 해석
- 데이터의 분포, 연관성, 확률 등을 통계적으로 깊이 있게 분석
- 이를 통해 효과적인 머신러닝 모델을 기획하고 적용할 수 있음
- 데이터 시각화
- 탬색적 데이터 분석(exploratory data analysis)
- ML 모델링(ML/DL)
- 결과 해석 및 적용(WEB)
- 모델을 적용할 때는 수많은 테스트와 수정을 반복
- 모델의 결괏값을 통해 문제점을 찾아내고 개선 방향을 도출하는 것은 통계학과 데이터 분석이 뒷받침 되어야함
기술 통계와 추론 통계
기술 통계(descriptive statistics)
- 주어진 데이터의 특성을 사실에 근거하여 설명하고 묘사하는 것
- 가장 기본적인 방법은 데이터의 대푯값을 설명하는 것
- 예) 30명이 있는 반의 학생들의 키를 설명(기술 통계) 하고자 한다면 평균 키를 통해 반 학생들의 키를 파악
- 전체 데이터를 쉽고 직관적으로 파악할 수 있도록 설명해주는 것이 기술 통계의 본질
- 데이터를 설명하는 방법은 평균, 중앙값, 최빈값, 데이터가 퍼진 정도, 최댓값과 최솟값의 범위 등
- 기술 통계를 통해 날 것의 데이터를 의사결정을 위한 정보로 변환하는 것이 탐색적 데이터 분석(Exploratory Data Analysis; EDA)
- 기술 통계는 보통 시각화를 많이 사용
- 단순 수치 보다는 그림이나 그래프를 통해서 표현하는 것이 훨씬 효과적이기 때문
추론 통계(inferential statistics)
- 표본 집단으로부터 모집단의 특성을 추론하는 것이 목적
- 모집단: 연구자가 관심있어하는 대상 전체 집합
- 표본 집단: 연구자가 모집단에서 일부를 추출한 부분집합
- 추론 통계는 한 반의 통계치를 통해 학교 전체 학생의 통계치를 추정하는 것
- 한 반의 평균 키가 170cm 라고 했을 때, "학교 전체 학생의 평균 키가 167 ~ 173 구간 내에 존재할 확률이 95% 정도" 라는 식으로 추론
- 노트북 생산 공장에서 노트북 표본의 배터리 수명이 5시간 30분이라고 할 때, 공장에서 생산되는 모든 노트북의 평균 배터리 수명도 정확히 5시간 30분일 수 없기 때문에, 표본으로 구한 5시간 30분이라는 통곗값을 통해 모집단의 배터리 수명을 나타내는 모수 값이 얼마인지, 모수 값이 특정 구간 내에 존재할 확률이 얼마인지 추정하는 것이 추론 통계
- 데이터 과학을 통해 머신러닝 모델을 만들고 예측이나 분류를 하는 것 등이 추론통계에 해당됨
변수와 척도
변수의 종류
- 데이터과학, 데이터 분석은 변수와 변수의 관계를 밝혀내는 활동
- 양적 변수: 사칙연산을 하는 것이 의미가 있는 변수
- 이산 변수(descrete variable) : 사람 수나 휴대폰 판매량과 같이 정숫값만 취할 수 있는 변수
- 연속 변수(continuous variable) : 길이나 무게처럼 연속적인 모든 실숫값을 취할 수 있는 변수
- 질적 변수: 사칙연산을 하는 것이 의미가 없는 변수
- 성별, 종교, 직업 등과 같은 비계량적 변수
- 속성을 숫자로 변환하더라도 수치적 의미는 가지고 있지 않음
- 예) 남성을 1, 여성을 2로 변환했을 때, 여성(2) - 남성(1) = 남성(1)이 될 수 없음
변수의 관계적 측면
- 독립변수(independent variable)
- 원인
- 종속변수(dependent variable)
- 결과
- 예) 흡연과 폐암의 관계라면, 흡연은 원인인 독립변수이고 폐암은 결과인 종속변수
- 독립변수와 종속변수는 서로 상관관계를 갖고 있음
- 예) 독립변수가 혈중알콜농도이고 종속변수가 운전 중 사고 발생률이라 가정한다면, 혈중알콜농도가 증가할 수록 사고 발생률이 증가함
- 이렇게 두 변수의 수치가 상관성을 갖는 것을 상관관계라고 함
- 독립변수 간에도 상관관계를 가질 수 있음
- 위의 예시에 전날 수면시간 이라는 독립변수가 추가된다면, 혈중알콜농도와 전날 수면시간은 약간의 상관관계를 가질 수 있음
- 독립변수 간에는 상관관계를 최소화해야함
- 독립변수 간의 상관관계가 높으면 독립변수들과 종속변수와의 연관성을 측정하기 어려워짐
- 독립변수와 종속변수는 단순한 상관관계가 아닌 원인과 결과의 관계를 가지고 있어야 함
- 혈중알콜농도가 원인이고 사고 발생률이 결과인 관계는 성립하지만
- 사고 발생률이 원인이고 혈중알콜농도가 결과인 관계는 어색함
- 어떠한 현상을 종속변수로서 설명하기 위해 원인이 될 수 있는 요소를 찾아내고 올바른 독립변수의 관계로 설정해야 함
- 예) 독립변수가 혈중알콜농도이고 종속변수가 운전 중 사고 발생률이라 가정한다면, 혈중알콜농도가 증가할 수록 사고 발생률이 증가함
가설검정
귀무가설과 대립가설
- 추론통계는 통계량을 사용하여 검정을 하는 것
- 검정하고자 하는 주제가 곧 가설(Hypothesis)
- 가설이란 연구문제에 대한 잠정적 결론
- 대부분의 연구나 데이터 분석은 알고싶은 정답을 미리 가설로 설정하고, 그 가설이 맞는지를 검정하는 방식으로 진행
- 가설은 둘 혹은 그 이상의 변수들 간의 관계에 대한 잠정적 결론
- 예) 컴퓨터게임 시간이 독립변수, 성적이 종속변수라면 컴퓨터 게임 시간이 길어질수록 성적이 낮아질 것이라고 가정할 수 있음
- 이 때 내린 잠정적인 결론이 가설
- 일반적으로 가설은 연구나 데이터 분석의 목적이 설정되면 자연스럽게 뒤따라오게됨
- 만약 학교 학생들의 성적이 부진하여, 학생들의 성적을 향상시키는 것이 목적이라면, 이 목적을 이루기 위한 다양한 가설을 설정할 수 있음
- 컴퓨터 게임 시간이 짧아질수록 성적이 향상될 것이다
- 선생님과 면담시간이 길어질수록 성적이 향상될 것이다
- 자율학습 시간에 휴대폰 사용을 통제하면 성적이 향상될 것이다
- 통학 거리가 짧을수록 성적이 향상될 것이다
- 성적 목표를 구체적으로 설정하면 성적이 향상될 것이다
- 만약 학교 학생들의 성적이 부진하여, 학생들의 성적을 향상시키는 것이 목적이라면, 이 목적을 이루기 위한 다양한 가설을 설정할 수 있음
- 통계학 가설 검정의 궁극적인 목표는 기존의 주장이 옳은지, 아니면 새로운 연구나 분석을 통한 주장이 맞는지를 검정하는 것
- 따라서 기존의 주장과 새로운 주장에 대한 두 가지 가설이 필요
- 귀무가설(Null hypothesis)
- H0로 표기하며, 새로이 증명하고자 하는 가설과 반대되는 가설
- 즉, 집단 간 차이가 없거나 변수의 영향력이 없는 상태를 의미
- '컴퓨터 게임 시간이 짧아질수록 성적이 향상될 것이다'라는 가설을 설정한다면, '컴퓨터 게임 시간과 성적은 관련이 없다' 가 귀무가설이 됨
- 무죄 추정의 원칙과 같이 충분한 증거가 있기 전까지는 귀무가설이 옳은 것으로 가정
- 대립가설(Alternative hypothesis)
- H1으로 표기하며, 귀무가설과 대립되는 결과에 대한 가설
- '컴퓨터 게임 시간이 짧아질수록 성적이 향상될 것이다'가 증명하고자 하는 대립가설
- 귀무가설(Null hypothesis)
- 통계기반의 가설 검정은 자신이 옳다고 주장하는 내용과 정반대의 가설인 귀무가설을 세우고 가설검정을 하여 귀무가설이 잘못된 것임을 밝힘
- 귀무가설이 옳지 않다면 반대되는 주장인 대립가설이 옳다고 볼 수 있으므로 이러한 방식으로 가설 설정
- 대립 가설이 참임을 증명하는 것보다, 귀무가설이 참이 아님을 증명하는 것이 훨씬 쉽기 때문
- 따라서 기존의 주장과 새로운 주장에 대한 두 가지 가설이 필요
가설검정의 절차
- 가설 설정
- 검정하고자 하는 가설을 설정
- 귀무가설은 '차이가 없다', '영향력이 없다', '연관성이 없다' 와 같이 설정
- 대립가설은 '차이가 있다', '영향력이 있다', '연관성이 있다' 와 같이 설정
- 유의수준 설정
- 귀무가설이 맞거나 틀린 것을 판단하기 위한 통곗값
- 일반적으로 0.1, 0.05, 0.01 등으로 설정
- 가장 흔히 사용되는 기준은 0.05
- 표본의 통계치가 귀무가설과 같이 나올 확률이 5% 미만이라는 뜻
- 가장 흔히 사용되는 기준은 0.05
- 실험 수행
- 통계 모델을 통해 실험을 수행
- 집단 간의 평균 차이를 검정하기 위해서는 t-test나 ANOVA를 사용, 종속변수에 대한 독립변수의 영향력을 검정하기 위해서는 희귀모델을 사용하는 등, 데이터 형태와 분석 목적에 따라 알맞은 모델을 설정
- 검정 통계량 산출
- 대립가설 기각/채택
- 통계적 검증을 통해 유의확률(p값)이 산출됐으면, 앞에서 설정한 유의수준을 통과하는지 확인
- p값이 유의수준보다 작을 때 귀무가설을 기각하고 대립가설을 채택
- p값이 유의수준보다 높다면 귀무가설과 같은 결과가 나올 확률이 높다는 뜻이므로, 대립가설을 채택할 수 없음
- 예) 혈압 개선 약품의 효과를 검정하려고 한다면, 실험군에는 해당 약품을 처방하고, 대조군에는 위약(Placebo)를 처방
- 가설 검정 프로세스
- 가설 검정
- 귀무 가설 : 혈압 개선 약품을 먹었을 때, 혈압의 변화가 없을 것이다
- 대립 가설 : 혈압 개선 약품을 먹었을 때, 혈압이 변화할 것이다
- 유의수준 설정
- 보편적 기준인 p-value(유의확률) < 0.05로 설정
- 실험 수행
- 실험군 집단의 투약 전과 후의 혈압 평균 t-test
- 대조군 집단의 투약 전과 후의 혈압 평균 t-test
- 검정 통계량 산출
- 실험군의 p값 : 0.001
- 대조군의 p값 : 0.21
- 대립가설 기각/채택 판단
- 위약을 투약했던 대조군은 실험 전과 후의 혈압 차이가 없었으나, 실험군은 유의수준 내에서 차이가 있으며 혈압이 감소했으므로 귀무가설을 기각하고 대립 가설 채택
- 가설 검정
- 가설 검정 프로세스
- 예) 혈압 개선 약품의 효과를 검정하려고 한다면, 실험군에는 해당 약품을 처방하고, 대조군에는 위약(Placebo)를 처방
가설검정의 유의수준과 p값
- 가설검정 : 모집단에 대한 가설이 통계적으로 옳은가를 판별하기 위한 방법
- 모집단에서 표본을 추출하여 얻은 표본 통계량으로 모집단의 모수가 귀무가설과 맞지 않고 연구가설에 합당한지 판단하기 위한 평가 방법
- 귀무가설에 대한 p값(p-value)이 유의수준(Significance level)안에 들어오는지에 따라 가설의 기각과 채택을 판별
- 표본의 통계량을 사용하기 때문에 귀무가설을 기각하거나 채택하는 것은 표본의 통계량이 나올 확률을 통해 판단
- 따라서 표본의 크기에 따라서 같은 통계치라도 귀무가설을 채택할 수도, 기각할 수도 있음
- 예) A마트와 B마트의 평균 고객 체류 시간이 다른지 가설 검정을 하고자 한다면
- A마트의 평균 고객 체류 시간: 50분
- B마트의 평균 고객 체류 시간: 55분
- 귀무가설: A마트와 B마트의 평균 고객 체류 시간은 차이가 없다
- 대립가설: A마트와 B마트의 평균 고객 체류 시간은 차이가 있다
- 위의 통계치가 10명의 표본으로 산출된 값이라면 귀무가설이 채택될 가능성이 높음
- 1000명의 표본으로 산출된 값이라면 귀무가설이 기각되고 대립가설이 채택될 가능성이 높음
- 데이터 분석은 목적성에 따라 네 가지로 분류할 수 있음
- 기술적 분석(Descriptive Analytics) : 과거나 현재에 어떤 일이 일어났는지를 파악하기 위한 분석
- 데이터의 분포, 추세 등을 분석하여 상황을 모니터링 함
- 진단적 분석(Diagnostic Analytics) : 과거나 현재에 발생한 사건의 원인을 밝히기 위한 분석
- 데이터 간의 관계를 분석하여 인과관계를 찾음
- 예측 분석(Predictive Analytics) : 기계학습 모델 등을 사용하여, 미래에 어떤 일이 어느 정도의 확률로 일어날지를 예측
- 현재는 알 수 없는 결과의 가능성을 파악
- 처방적 분석(Prescriptive Analytics) : 예측되는 미래의 결과를 위해 어떻게 하면 좋을지 처방하기 위한 분석
- 제한된 자원을 효과적으로 활용하여 최적의 성과를 낼 수 있도록 방향을 도출
인지적 편향
- 데이터 분석은 숫자를 면밀히 살펴보고 결론을 도출해 내는 작업
- 하지만 분석가가 표본을 어떻게 선택하는 가에 따라서 결과가 정 반대로 나올 수도 있고, 주관적인 판단이나 고정관념이 결과에 많은 영향을 미침
- 인지적 편향의 종류
- 확증 편향
- 자신이 본래 믿고 있는 대로 정보를 선택적으로 받아들이고 임의로 판단하는 편향
- 기준점 편향
- 분석가가 가장 처음에 접하는 정보에 지나치게 매몰되는 편향
- 선택 지원 편향
- 본인이 의사결정을 내리는 순간 그 선택의 긍정적인 부분에 대해 더 많이 생각하고 그 결정에 반대되는 증거를 무시하게 되는 편향
- 분모 편향
- 분수 전체가 아닌 분자에만 집중하여 현황을 왜곡하여 판단하게 되는 편향
- 생존자 편향
- 소수의 성공한 사례를 일반화된 것으로 인식함으로써 나타나는 편향
- 확증 편향
분석가의 주관적 판단과 스토리텔링
분석가의 주관적 판단
- 올바른 데이터를 선택하고 결론을 이끌어 내려면, 사람의 지식과 상식, 그리고 창의성이 필요함
- 데이터에서는 나타나지 않는, 사람들의 심리적 요소가 있기 때문
- 데이터가 무조건 객관적인 진실만을 나타내지 않음
- 1차원적인 데이터는 사람들의 문화나 심리를 나타내지 못하는 경우가 많음
- 분석가의 주관적 믿음과 판단으로 결과를 왜곡하거나 오류를 범할 수도 있지만, 분석 시스템은 보이지 않는 요소를 고려하지 않기 때문에 분석가는 데이터를 항상 의심해야함
- 분석가가 올바른 주관적 판단을 하기 위해 필요한 요소
- 해당 분야의 도메인 지식
- 그 분야의 생리를 잘 알지 못하면 무엇이 잘못됐는지 판단할 수 없으며, 따라서 제대로 된 판단을 내리기 힘듦
- 통계적 지식을 기반으로 한 탐색적 데이터 분석(EDA)과 데이터 전처리
- 이 프로세스는 데이터를 깊이 이해하고 오류를 찾아낼 수 있는 중요한 단계이므로 도메인에 익숙하다고 해도 철저히 진행하여야 함
- 전처리가 제대로 되지 않은 데이터는 예측력도 당연히 떨어질 수 밖에 없음
- 또한 문제해결의 과정과 데이터를 꼼꼼하게 기록해 두어야 함
- 팀 협업에도 도움이 되고, 기록하고 다시 확인하는 과정에서 생각을 정리하고 발전시키는 데에 많은 도움이 됨
- 적극적인 커뮤니케이션과 검증
- 분석가가 해당 데이터와 모델에만 매몰되다 보면 시야가 좁아짐
- 찾아낸 중간 결과에 대해서 관련 부서나 제3자의 의견을 적극적으로 구하고 내용을 발전시켜 나가야함
- 분석가가 해당 데이터와 모델에만 매몰되다 보면 시야가 좁아짐
- 해당 분야의 도메인 지식
스토리텔링
- 분석 결과는 타인을 이해시키고 설득시킬 수 있어야 함
- 그러기 위해서는 스토리텔링이 중요
- 효과적으로 분석 및 예측 모델링 내용을 전달하려면 듣는 사람으로 하여금 흥미를 느끼고, 이 분석 프로젝트가 왜 필요한지를 공감하도록 해야함
- 일반적으로 몰입도와 전달 효과가 큰 스토리텔링 구조는 "배경 - 문제(위기) - 극복 - 변화"의 흐름으로 구성됨
- 해당 도메인에 익숙하지 않은 사람들에게는 배경을 간략히 소개하면서 이야기를 시작하는 것이 효과적
- 주의할 점은 수식이나 복잡한 표는 최소화해야함
- 전문성을 어필하기 위해 필요 이상으로 어려운 용어나 수식등을 나열하면 흥미도 떨어지고 이야기의 본질이 흐려지며 설득력이 저하됨
- 주의할 점은 수식이나 복잡한 표는 최소화해야함
- 기본적으로 발표는 서본결 의 구조를 갖는 것이 중요
- 서론
- 분석 프로젝트의 배경과 중심 문제 소개
- 청중에게 흥미를 부여하고 현재의 문제를 공감할 수 있도록 하는 것이 중요
- 구체적 수치를 제시하는 것도 좋음
- 예) "A 제품의 공정 불량률은 5%이고, 이에 따른 손실액은 연간 100억원이고, 타 제품의 불량률은 1% 미만이므로, A제품의 불량률을 타 제품만큼 개선하면 연간 90억원 이상 비용을 절감할 수 있다"
- 본론
- 현재의 문제를 개선하기 위해 어떠한 노력을 했는지
- 청중이 쉽게 이해할 수 있도록 내용을 작성해야함
- 동시에 분석과 개선 과정의 신뢰성 또한 확보해야함
- 어떤 경로로 데이터를 입수했는지, 데이터의 종류, 기간, 속성 등
- 현 상황과 문제점을 이해할 수 있도록 기본적인 통계 수치와 그래프를 명시
- 전체적인 내용을 일괄적으로 나열하기 보다는 핵심이 되는 내용을 최대한 심플하게 발표
- 데이터 분석이나 모델링을 설명할 때는 전문용어와 수식은 최대한 배제하고 흐름을 따라갈 수 있도록 해야함
- 데이터 분석과 관련 없는 사람들은 모델의 세부 내용에는 관심이 없음
- 중요한 것은 개선 방향의 타당성
- 현재의 문제를 개선하기 위해 어떠한 노력을 했는지
- 결론
- 데이터 분석을 통해 어떤 결과가 나왔는지, 그 결론이 무엇인지
- 개선된 내용을 수치로 명확하게 표현
- 어떠한 문제를 이번 프로젝트를 통해 어떻게 개선했는지를 다시 한 번 상기할 수 있도록 명확하게
- 너무 성과를 강조하기만 하면 오히려 신뢰도가 떨어질 수 있으니 주의
- 최대한 중립적인 관점에서 데이터에 기반하여 내용을 설명
- 이번 프로젝트의 한계점을 명시하는 것도 좋음
- 한계점을 제시함으로써 향후 고도화 프로젝트로 이어질 수 있음
- 전체적인 내용을 한 문장으로 만들 수 있으면 가장 best, 결론이 한 문장으로 잘 요약된다면 전체 스토리가 올바르게 구성됐다는 뜻
- 예) "5%의 불량률로 연간 100억원의 손실이 발생하는 A제품의 공정을, 센서 분석을 통해 불량률 1%로 개선하여 90억원의 비용을 절감했다."
- 서론
728x90
'07_Data_Analysis' 카테고리의 다른 글
| 11_탐색적 데이터 분석_국가별 음주 데이터 분석 (1) | 2025.03.19 |
|---|---|
| 10_탐색적 데이터 분석 (0) | 2025.03.19 |
| 08_분포 시각화 (0) | 2025.03.17 |
| 07_비교 시각화 (0) | 2025.03.17 |
| 06_시간 시각화 (0) | 2025.03.17 |