728x90

07_Data_Analysis 21

21_청소기 가성비 데이터 수집&분석

분석 목표여러 제조사별 무선청소기의 가격과 성능에 대한 데이터를 수집하고 분석하여 각각의 상황에 맞는 제품군 파악from selenium import webdriverfrom seleniuhttp://m.webdriver.common.by import Byfrom bs4 import BeautifulSoupimport pandas as pdimport matplotlib.pyplot as pltimport seaborn as snsimport time # Windows용 한글 폰트 오류 해결from matplotlib import font_manager, rcfont_path = "C:/Windows/Fonts/malgun.ttf"font_name = font_manager.FontProperties(f..

07_Data_Analysis 2025.03.25

20_별다방, 서울시 데이터

별다방, 서울시 데이터를 통해 인구수별 별다방 매장 수를 분석 from selenium import webdriverfrom seleniuhttp://m.webdriver.common.by import Byfrom bs4 import BeautifulSoupfrom seleniuhttp://m.webdriver.common.keys import Keysimport timefrom seleniuhttp://m.webdriver.support.ui import WebDriverWaitfrom selenium.webdriver.support import expected_conditions as ECfrom selenium.common.exceptions import ElementNotInteractableEx..

07_Data_Analysis 2025.03.21

19_Wordcloud, Polium_제주도 맛집 데이터

Wordcloud, Polium을 이용한 제주도 맛집 데이터 분석 import pandas as pdfrom collections import Counterimport matplotlib.pyplot as pltimport seaborn as snsimport requestsimport timefrom tqdm import tqdmimport foliumfrom folium.plugins import MarkerClusterfrom wordcloud import WordCloud # https://pypi.org/project/wordcloud/# pip install wordcloud # Windows용 한글 폰트 오류 해결from matplotlib import font_manager, rcfont_..

07_Data_Analysis 2025.03.20

18_외국인 관광객 데이터 분석

# https://datalab.visitkorea.or.kr/datalab/portal/main/getMainForm.do# 한국관광데이터랩>관광통계/실태조사>방한외래관광객>목적별import pandas as pdimport matplotlib.pyplot as pltimport seaborn as sns# Windows용 한글 폰트 오류 해결from matplotlib import font_manager, rcfont_path = "C:/Windows/Fonts/malgun.ttf"font_name = font_manager.FontProperties(fname = font_path).get_name()rc("font", family = font_name)kto_201001 = pd.read_exce..

07_Data_Analysis 2025.03.20

17_유투브 랭킹 데이터 분석

# 유튜브랭킹>전체순위# https://youtube-rank.com/ import pandas as pdimport matplotlib.pyplot as pltfrom bs4 import BeautifulSoupfrom urllib.request import urlopen # Windows용 한글 폰트 오류 해결from matplotlib import font_manager, rcfont_path = "C:/Windows/Fonts/malgun.ttf"font_name = font_manager.FontProperties(fname = font_path).get_name()rc("font", family = font_name)url = 'https://youtube-rank.com/board/bbs/b..

07_Data_Analysis 2025.03.19

16_기온 데이터 분석

기온 데이터 분석 # 기상자료개방포털>기후통계분석>기온분석# https://data.kma.go.kr/cmmn/main.doimport pandas as pdimport matplotlib.pyplot as pltimport numpy as np# Windows용 한글 폰트 오류 해결from matplotlib import font_manager, rcfont_path = "C:/Windows/Fonts/malgun.ttf"font_name = font_manager.FontProperties(fname = font_path).get_name()rc("font", family = font_name) 데이터 확인df = pd.read_csv("./data/seoul.csv", skiprows = 6, en..

07_Data_Analysis 2025.03.19

15_카이제곱 검정(교차분석)

카이제곱 검정(Chi-square test) 범주형 변수들 간의 연관성을 분석하기 위해 결합분포를 활용하는 방법연령 같은 변수는 연령대와 같은 서열척도로 변환해서 사용할 수 있음기본 원리는 변수들 간의 범주를 동시에 교차하는 교차표를 만들어 각각의 빈도와 비율을 통해 변수 상호 간의 독립성과 관련성을 분석하는 것교차분석은 상관분석과는 다르게 연관성의 정도를 수치로 표현할 수 없음대신 검정 통계량 카이 제곱을 통해 변수 간에 연관성이 없다는 귀무가설을 기각하는지 여부로 상관성이 있고 없음을 판단from scipy.stats import chi2_contingencyimport pandas as pdimport matplotlib.pyplot as plt  df.head() df.shape(131, 2) d..

07_Data_Analysis 2025.03.19

14_ANOVA(ANalysis Of VAriance)

ANOVA(ANalysis Of VAriance)  T-test는 두 집단의 평균 차이를 검정하는 방법세 집단 이상의 평균을 검정할 때는 ANOVA를 사용T-test를 사용하여 세 집단 이상을 분석할 때는 A와 B를 검정하고, B와 C를 검정하고, A와 C를 검정하는 방법을 사용하지만 신뢰도가 하락하는 문제가 있어 일반적으로 집단이 3개 이상일 때는 ANOVA를 사용ANOVA의 일반적인 가설H0(귀무가설) : 독립변수의 차이에 따른 종속변수는 동일하다H1(대립가설) : 독립변수의 차이에 따른 종속변수는 다르다ANOVA는 독립변수의 수에 따라 다르게 불림예) 고객들의 객단가 평균 차이를 비교하기 위한 요인이 '지역' 하나라면 일원 분산분석(one-way ANOVA)만약 요인이 '지역', '연령대' 두 가지..

07_Data_Analysis 2025.03.19

13_T-Test

T-Test from scipy import statsimport pandas as pdimport seaborn as snsimport matplotlib.pyplot as pltdf = pd.read_csv("./data/Golf_test.csv")df.head() A, B, C 세 개 타입의 골프공의 비거리 테스트 결과 데이터각 타입의 골프공을 특정 처리를 하기 전과 후로 구분 df.shape(50, 6) df.dtypesTypeA_before int64TypeA_after int64TypeB_before int64TypeB_after int64TypeC_before int64TypeC_after int64dtype: object df.info()RangeInd..

07_Data_Analysis 2025.03.19

12_T-Test, ANOVA 개요

T-Test, ANOVA T-test, ANOVA 는 통계 기반 데이터 분석의 기본 방법론 중 하나집단 내 혹은 집단 간의 평균값 차이가 통계적으로 유의미한 것인지 알아내는 방법예) 쇼핑몰의 지역별 객단가를 분석한다면A지역의 고객별 평균 매출: 67,000원B지역의 고객별 평균 매출: 68,500원이 때, 1500원의 차이가 우연적인 차이인지, 통계적으로 유의미한 차이인지를 알아보기 위해 사용T-test는 두 집단 간의 평균 차이를 분석할 때 사용ANOVA는 두 집단 이상일 경우에 사용T-test는 분석하고자 하는 변수가 양적 변수이며, 정규 분포이며, 등분산성이라는 조건이 충족되어야 함평균의 차이가 클수록, 표본의 수가 많을수록 귀무가설이 기각될 가능성이 커지고, 관측치들의 값 간의 표준편차가 크면 평..

07_Data_Analysis 2025.03.19
728x90