728x90

2025/03 46

05-4_연습문제_Vaccine

import pandas as pd문제1. vaccine.csv 데이터를 데이터프레임으로 읽기 vc = pd.read_csv("./data/vaccine.csv")vc.head()  문제2. 데이터프레임에서 필요 없는 열을 삭제하기삭제할 열 : day1sum, day1rate, day2sum, day2ratevc = vc.drop(["day1sum", "day1rate", "day2sum", "day2rate"], axis = 1)vc.head()  문제3. 데이터프레임의 기초통계량을 확인하기vc.describe() 문제4. day1num과 day2num의 월별 평균을 출력하기vc.dtypesdate objectsubject int64day1num int64day2num ..

05_Pandas 2025.03.07

05-3_연습문제_Fictional_Army

import pandas as pd 문제1. 아래의 raw_data를 데이터프레임으로 변환하기raw_data = {'regiment': ['Nighthawks', 'Nighthawks', 'Nighthawks', 'Nighthawks', 'Dragoons', 'Dragoons', 'Dragoons', 'Dragoons', 'Scouts', 'Scouts', 'Scouts', 'Scouts'],            'company': ['1st', '1st', '2nd', '2nd', '1st', '1st', '2nd', '2nd','1st', '1st', '2nd', '2nd'],            'deaths': [523, 52, 25, 616, 43, 234, 523, 62, 62, 73, 37,..

05_Pandas 2025.03.06

05-1_연습문제_student_alchol_consumption

import pandas as pd문제1. student-mat.csv 데이터 읽어오기sm = pd.read_csv("./data/student-mat.csv")sm.head()   문제2. 데이터프레임의 school열부터 guardian열까지 추출# sm = sm.iloc[0:5, 0:12]# df.loc[행, 열]sm = sm.loc[:, "school":"guardian"]sm.head() sm = sm.iloc[:, :12]sm  문제3. 문자열 데이터를 입력 받고 capitalize() 메소드를 적용하는 capitalizer 함수 정의def capitalizer(chastr):    return chastr.capitalize()  문제4. Mjob과 Fjob열에 capitalizer 함수 적용..

05_Pandas 2025.03.06

05_데이터프레임 응용

데이터프레임 응용  01. 함수 매핑시리즈 또는 데이터프레임의 개별 원소를 특정 함수에 일대일 대응시키는 과정사용자가 직접 만든 함수를 적용할 수 있기 때문에 판다스 기본 함수로 처리하기 어려운 복잡한 연산을 적용하는 것이 가능 개별 원소에 함수 매핑시리즈 원소에 함수 매핑시리즈에 map() 을 적용하면 인자로 전달받는 매핑 함수에 시리즈의 모든 원소를 하나씩 입력하고 리턴값을 받음시리즈 원소의 개수만큼 리턴값을 받아서 같은 크기의 시리즈 객체로 변환 import pandas as pdimport seaborn as snstitanic = sns.load_dataset("titanic")df = titanic.loc[:, ["age", "fare"]]df["ten"] = 10df.head() # 10을 ..

05_Pandas 2025.03.06

04-1_연습문제_iris

import pandas as pdimport numpy as np문제1. 데이터프레임을 iris 변수로 읽기iris = pd.read_csv("./data/iris.csv")iris.head() 아래 코드를 실행해주세요iris.iloc[10:30,2:3] = np.nan #10행~30행, 2열~3열을 결측치로 만듦 문제2. 데이터프레임에 누락값이 있는지 확인iris.isnull().sum()SepalLength 0SepalWidth 0PetalLength 20PetalWidth 0Species 0dtype: int64  문제3. 결측치에 1 채워넣기iris = iris.fillna(1)iris.isna().sum() # 결측치가 사라져있는것을 확인SepalL..

05_Pandas 2025.03.06

04_데이터 전처리

데이터 전처리데이터 분석의 정확도는 분석 데이터의 품질에 의해 좌우됨데이터 품질을 높이기 위해 누락 데이터, 중복 데이터 등의 오류를 수정하고 분석 목적에 맞게 변형하는 과정이 필요수집한 데이터를 분석에 적합하도록 만드는 과정을 전처리라고 함 01. 누락 데이터 처리데이터프레임에는 여러가지 이유로 원소 데이터 값이 누락되는 경우가 종종 있음데이터를 파일로 입력할 때 빠뜨리거나 파일 형식을 변환하는 과정에서 데이터가 소실되는 것이 주요 원인일반적으로 누락 데이터를 NaN(Not a Number)으로 표시머신러닝 분석 모형에 데이터를 입력하기 전에 누락 데이터를 제거하거나 다른 적절한 값으로 대체하는 과정이 필요누락 데이터가 많아지면 데이터의 품질이 떨어지고, 머신러닝 분석 알고리즘을 왜곡하는 현상이 발생..

05_Pandas 2025.03.06

03-1_연습문제_occupation

import pandas as pd 문제1. user_id를 인덱스로 사용한 데이터프레임 읽기  df = pd.read_csv("./data/occupation.tsv", sep='|', index_col = 'user_id')  문제2. 상위 25개 행 확인df.head(25) 문제3. 하위 10개 행 확인df.tail(10) 문제4. 데이터의 행 수 확인df.shape[0]943 len(df)943  문제5. 컬럼 수 확인df.shape[1]4 len(df.columns)4  문제6. 컬럼명 확인df.columnsIndex(['age', 'gender', 'occupation', 'zip_code'], dtype='object')  문제7. 데이터 인덱스 확인df.indexIndex([ 1, 2..

05_Pandas 2025.03.05
728x90