728x90

07_Data_Analysis 21

10_탐색적 데이터 분석

탐색적 데이터 분석(EDA : Exploratory Data Analysis) 통찰을 얻기 위한 데이터 분석의 가장 기본이 되는 방법탐색적 데이터 분석의 과정데이터 파악데이터의 외형적인 내용을 파악하는 단계raw data : 분석에 활용된 적이 없는, 또는 정제되지 않은 데이터데이터의 출처와 주제 파악데이터가 어디에서 생성된 것 인지데이터가 어떻게 수집된 것인지예) 데이터의 이름, 구성요소, 출처, 주제 등데이터의 크기 파악데이터의 크기에 따라서 데이터의 처리방식이 달라지기 때문에예) 샘플링: 어떤 자료로부터 일부의 값을 추출하는 행위. 데이터가 너무 크거나 전체 데이터를 활용할 수 없는 경우에 수행데이터의 구성 요소(피처) 파악데이터가 어떻게 구성되어 있는지, 어떤 정보를 담고 있는지를 파악하는 아주 ..

07_Data_Analysis 2025.03.19

09_데이터 분석의 이해

데이터 과학 프로젝트의 진행과정 데이터 수집(python)데이터 가공(pandas/numpy)데이터 분석(DV + EDA)탬색적 데이터 분석(exploratory data analysis)데이터를 이해하고 해석데이터의 분포, 연관성, 확률 등을 통계적으로 깊이 있게 분석이를 통해 효과적인 머신러닝 모델을 기획하고 적용할 수 있음데이터 시각화ML 모델링(ML/DL)결과 해석 및 적용(WEB)모델을 적용할 때는 수많은 테스트와 수정을 반복모델의 결괏값을 통해 문제점을 찾아내고 개선 방향을 도출하는 것은 통계학과 데이터 분석이 뒷받침 되어야함 기술 통계와 추론 통계  기술 통계(descriptive statistics)주어진 데이터의 특성을 사실에 근거하여 설명하고 묘사하는 것가장 기본적인 방법은 데이터의 대..

07_Data_Analysis 2025.03.17

08_분포 시각화

분포 시각화 데이터가 처음 주어졌을 때, 변수들이 어떤 요소로 어느 정도의 비율로 구성되어 있는지를 확인분포 시각화는 양적 척도인지, 질적 척도인지에 따라 구분양적 척도(숫자로 나타낼 수 있는 데이터)막대그래프, 선 그래프, 히스토그램히스토그램은 처음에는 구간을 20개 정도로 세세하게 나누어서 분포를 살펴본 다음, 시각적으로 봤을 때 정보의 손실이 커지기 전까지 조금씩 구간의 개수를 줄임구간이 너무 많으면 보기 어렵고, 너무 적으면 정보의 손실이 크기 때문에 시각화의 이점이 사라짐질적 척도구성이 단순한 경우파이차트, 도넛차트전체를 100%로 하여 구성 요소들의 분포 정도를 면적으로 표현시각적 표현만으로는 비율을 정확하게 알기 힘들기 때문에 수치를 함께 표시해 주는 것이 좋음도넛 차트는 가운데가 비어있어서..

07_Data_Analysis 2025.03.17

07_비교 시각화

비교 시각화 그룹별 차이를 나타내기 위한 비교 시각화는 데이터가 간단하다면 막대 그래프만으로도 충분히 표현할 수 있음하지만 그룹별 요소가 많아지게 되면, 보다 효율적인 표현기법을 사용해야 함히트맵 차트는 그룹과 비교 요소가 많을 때 효과적으로 시각화를 할 수 있는 방법히트맵은 각각의 셀의 색상이나 채도를 통해 데이터 값의 높고 낮음을 나타냄따라서 각 그룹을 기준으로 요소들의 크기를 비교할 수도 있고, 각 요소를 기준으로 그룹들의 크기를 비교할 수도 있음이를 통해 각 그룹이 어떤 요소에서 높은, 혹은 낮은 값을 가지는지 쉽게 파악할 수 있고, 요소 간의 관계도 파악이 가능차트의 열을 시간 흐름으로 설정하면 시간 시각화로도 활용이 가능비교 시각화를 하는 방법으로는 방사형 차트(Rader chart)도 있음예..

07_Data_Analysis 2025.03.17

06_시간 시각화

시간 시각화 시점 요소가 있는 데이터는 시계열(Time series)형태로 표현할 수 있음시간의 흐름에 따른 데이터의 변화를 표현전체적인 흐름을 한 눈에 확인할 수 있고, 데이터의 트렌드나 노이즈도 쉽게 찾아낼 수 있음시간 시각화는 선 그래프 형태인 연속형과 막대 그래프 형태인 분절형으로 구분연속형 시간 시각화선 그래프시간 간격의 밀도가 높을 때 주로 사용예) 초 단위의 공정 센서 데이터, 일년 간의 일별 판매량 데이터데이터의 양이 너무 많거나 변동이 심하면 트렌드나 패턴을 파악하는 것이 어려울 수 있음이 경우는 추세션을 삽입하여 들쭉날쭉한 데이터 흐름을 안정된 선으로 표현하는 것도 가능전체적인 경향이나 패턴을 쉽게 파악하는 것이 목적추세선을 그리는 가장 일반적인 방법은 이동평균(moving averag..

07_Data_Analysis 2025.03.17

05_Folium(지도 시각화 도구)

Folium지도 시각화에 유용한 도구세계 지도를 기본 지원하고 다양한 스타일의 지도 이미지를 제공지도 만들기Map() 함수를 이용하여 지도 객체 생성지도 화면은 줌과 이동 기능을 지원folium은 웹 기반 지도를 만들어 웹 기반 IDE에서는 지도 객체를 바로 확인할 수 있고, 웹 기반 IDE가 아니라면 HTML 파일로 저장하고 확인folium설치https://python-visualization.github.io/folium/latest/getting_started.htmlpip install folium import pandas as pdimport foliumimport json # 서울 지도 만들기seoul_map = folium.Map(location = [37.55, 126.98], zoom_s..

07_Data_Analysis 2025.03.17

04_seaborn예제

import seaborn as snsimport matplotlib.pyplot as plt 회귀선이 있는 산점도titanic = sns.load_dataset("titanic")# 스타일 테마 설정sns.set_style("darkgrid")fig = plt.figure(figsize = (15, 5))ax1 = fig.add_subplot(1, 2, 1)ax2 = fig.add_subplot(1, 2, 2)# 선형회귀선 표시sns.regplot(x = "age", # x축 변수            y = "fare", # y축 변수            data = titanic, # 데이터            ax = ax1) # axe 객체 - 1번째 그래프# 선형회귀선 미표시sns.regplot..

07_Data_Analysis 2025.03.16

03_Matplotlib예제

import pandas as pdimport matplotlib.pyplot as plt# Windows용 한글 폰트 오류 해결from matplotlib import font_manager, rcimport matplotlibfont_path = "C:/Windows/Fonts/malgun.ttf"font_name = font_manager.FontProperties(fname = font_path).get_name()rc("font", family = font_name)# - 가 나오지 않는 문제 해결matplotlib.rcParams["axes.unicode_minus"] = Falsedf = pd.read_excel("./data/시도별 전출입 인구수.xlsx")df.head()  df.shap..

07_Data_Analysis 2025.03.16

02_그래프의 종류

import matplotlib.pyplot as pltimport numpy as npimport pandas as pdimport seaborn as sns # Windows용 한글 폰트 오류 해결from matplotlib import font_manager, rcfont_path = "C:/Windows/Fonts/malgun.ttf"font_name = font_manager.FontProperties(fname = font_path).get_name()rc("font", family = font_name) 꺾은 선 그래프연속적으로 변화하는 데이터를 살펴보고자 할 때 주로 사용시간에 따른 데이터의 연속적인 변화량을 관찰할 때예) 시간에 따른 기온의 변화수량을 점으로 표시하면서 선으로 이어 그리..

07_Data_Analysis 2025.03.12
728x90