728x90

2025/03 46

07_서울교통공사_에스컬레이터 설치 정보(1~9호선)

서울교통공사 에스컬레이터 설치 정보 전처리 및 csv로 저장(1~8호선 정보 + 9호선 정보) import pandas as pd 01. 1~8호선 정보... # 첫 1행과 마지막 1행을 제외하고 엑셀파일을 읽어들임df = pd.read_excel("./data/서울교통공사_에스컬레이터 설치 정보(1-8호선).xlsx", header = 1, skipfooter = 1) df.head()  df.tail() df.columnsIndex(['연번\n(총괄정렬용)', '연번', '호선', '역명', '호기', '승강기번호', '설치위치', '운행구간(자체조사)', '운행방향'], dtype='object') # 호선 -> 노선명df.columns = ['연번\n(총괄정렬용)', '연번',..

05_Pandas 2025.03.27

06_서울교통공사_역사면적정보

서울교통공사 역사면적정보 전처리 및 csv로 저장 import pandas as pd df = pd.read_csv("./data/서울교통공사_역사면적정보_20250310.csv", encoding="euc-kr")# 위에서부터 10개의 데이터를 확인df.head(10) df.tail(10)  df.info()RangeIndex: 277 entries, 0 to 276Data columns (total 5 columns): # Column Non-Null Count Dtype --- ------ -------------- ----- 0 연번 277 non-null int64 1 호선 277 non-null int64 2 역명 277..

05_Pandas 2025.03.27

21_청소기 가성비 데이터 수집&분석

분석 목표여러 제조사별 무선청소기의 가격과 성능에 대한 데이터를 수집하고 분석하여 각각의 상황에 맞는 제품군 파악from selenium import webdriverfrom seleniuhttp://m.webdriver.common.by import Byfrom bs4 import BeautifulSoupimport pandas as pdimport matplotlib.pyplot as pltimport seaborn as snsimport time # Windows용 한글 폰트 오류 해결from matplotlib import font_manager, rcfont_path = "C:/Windows/Fonts/malgun.ttf"font_name = font_manager.FontProperties(f..

07_Data_Analysis 2025.03.25

20_별다방, 서울시 데이터

별다방, 서울시 데이터를 통해 인구수별 별다방 매장 수를 분석 from selenium import webdriverfrom seleniuhttp://m.webdriver.common.by import Byfrom bs4 import BeautifulSoupfrom seleniuhttp://m.webdriver.common.keys import Keysimport timefrom seleniuhttp://m.webdriver.support.ui import WebDriverWaitfrom selenium.webdriver.support import expected_conditions as ECfrom selenium.common.exceptions import ElementNotInteractableEx..

07_Data_Analysis 2025.03.21

19_Wordcloud, Polium_제주도 맛집 데이터

Wordcloud, Polium을 이용한 제주도 맛집 데이터 분석 import pandas as pdfrom collections import Counterimport matplotlib.pyplot as pltimport seaborn as snsimport requestsimport timefrom tqdm import tqdmimport foliumfrom folium.plugins import MarkerClusterfrom wordcloud import WordCloud # https://pypi.org/project/wordcloud/# pip install wordcloud # Windows용 한글 폰트 오류 해결from matplotlib import font_manager, rcfont_..

07_Data_Analysis 2025.03.20

18_외국인 관광객 데이터 분석

# https://datalab.visitkorea.or.kr/datalab/portal/main/getMainForm.do# 한국관광데이터랩>관광통계/실태조사>방한외래관광객>목적별import pandas as pdimport matplotlib.pyplot as pltimport seaborn as sns# Windows용 한글 폰트 오류 해결from matplotlib import font_manager, rcfont_path = "C:/Windows/Fonts/malgun.ttf"font_name = font_manager.FontProperties(fname = font_path).get_name()rc("font", family = font_name)kto_201001 = pd.read_exce..

07_Data_Analysis 2025.03.20

17_유투브 랭킹 데이터 분석

# 유튜브랭킹>전체순위# https://youtube-rank.com/ import pandas as pdimport matplotlib.pyplot as pltfrom bs4 import BeautifulSoupfrom urllib.request import urlopen # Windows용 한글 폰트 오류 해결from matplotlib import font_manager, rcfont_path = "C:/Windows/Fonts/malgun.ttf"font_name = font_manager.FontProperties(fname = font_path).get_name()rc("font", family = font_name)url = 'https://youtube-rank.com/board/bbs/b..

07_Data_Analysis 2025.03.19

16_기온 데이터 분석

기온 데이터 분석 # 기상자료개방포털>기후통계분석>기온분석# https://data.kma.go.kr/cmmn/main.doimport pandas as pdimport matplotlib.pyplot as pltimport numpy as np# Windows용 한글 폰트 오류 해결from matplotlib import font_manager, rcfont_path = "C:/Windows/Fonts/malgun.ttf"font_name = font_manager.FontProperties(fname = font_path).get_name()rc("font", family = font_name) 데이터 확인df = pd.read_csv("./data/seoul.csv", skiprows = 6, en..

07_Data_Analysis 2025.03.19

15_카이제곱 검정(교차분석)

카이제곱 검정(Chi-square test) 범주형 변수들 간의 연관성을 분석하기 위해 결합분포를 활용하는 방법연령 같은 변수는 연령대와 같은 서열척도로 변환해서 사용할 수 있음기본 원리는 변수들 간의 범주를 동시에 교차하는 교차표를 만들어 각각의 빈도와 비율을 통해 변수 상호 간의 독립성과 관련성을 분석하는 것교차분석은 상관분석과는 다르게 연관성의 정도를 수치로 표현할 수 없음대신 검정 통계량 카이 제곱을 통해 변수 간에 연관성이 없다는 귀무가설을 기각하는지 여부로 상관성이 있고 없음을 판단from scipy.stats import chi2_contingencyimport pandas as pdimport matplotlib.pyplot as plt  df.head() df.shape(131, 2) d..

07_Data_Analysis 2025.03.19

14_ANOVA(ANalysis Of VAriance)

ANOVA(ANalysis Of VAriance)  T-test는 두 집단의 평균 차이를 검정하는 방법세 집단 이상의 평균을 검정할 때는 ANOVA를 사용T-test를 사용하여 세 집단 이상을 분석할 때는 A와 B를 검정하고, B와 C를 검정하고, A와 C를 검정하는 방법을 사용하지만 신뢰도가 하락하는 문제가 있어 일반적으로 집단이 3개 이상일 때는 ANOVA를 사용ANOVA의 일반적인 가설H0(귀무가설) : 독립변수의 차이에 따른 종속변수는 동일하다H1(대립가설) : 독립변수의 차이에 따른 종속변수는 다르다ANOVA는 독립변수의 수에 따라 다르게 불림예) 고객들의 객단가 평균 차이를 비교하기 위한 요인이 '지역' 하나라면 일원 분산분석(one-way ANOVA)만약 요인이 '지역', '연령대' 두 가지..

07_Data_Analysis 2025.03.19
728x90