728x90

2025/04/02 4

04_KNN_타이타닉 분류

KNN 타이타닉 분류  import pandas as pdimport numpy as npimport seaborn as snsfrom sklearn.preprocessing import StandardScalerfrom sklearn.model_selection import train_test_splitfrom sklearn.neighbors import KNeighborsClassifierfrom sklearn.metrics import confusion_matrix, classification_report   01. 데이터 준비 df = sns.load_dataset("titanic") df.head()  02. 데이터 탐색df.shape(891, 15) df.dtypessurvived ..

03_데이터 전처리

데이터 전처리  01. 데이터 분할머신러닝 모델의 성능을 정확하게 평가하기 위해서는 훈련에 사용하지 않은 테스트 세트를 통해 평가해야함평가를 위한 별도의 데이터를 준비하거나 준비된 데이터 중에 일부를 떼어 테스트 세트로 준비훈련: 테스트 비율은 70 ~ 80 : 20 ~ 30반드시 정해져 있는 것은 아니며 연구자의 임의로 조절 가능함(예) 7:3, 75:25, 8:2)전체 데이터가 아주 크고 모든 데이터 패턴을 잘 담아내기만 한다면 테스트 데이터는 1%만 사용해도 충분할 수 있음import pandas as pdimport matplotlib.pyplot as pltfrom sklearn.preprocessing import LabelEncoder, StandardScaler # 정규화from sklea..

02_KNN 이진분류

KNN 이진분류  01. 생선 분류수산물 전문 물류 센터에서 신입 직원들이 생선 이름을 외우지 못해 작업의 효율성이 현저히 떨어지는 일이 잦음이 물류 센터에서는 주로 생선의 길이와 무게로 생선을 분류판매하는 생선은 도미, 잉어, 대구, 청돔, 농어, 민물꼬치고기, 빙어 02. 이진 분류(binary classification)분류(classification): 여러 개의 범주(클래스) 중 하나를 구별해 내는 것이진 분류: 2개의 범주 중 하나를 고류는 분류도미인가 빙어인가import pandas as pdimport matplotlib.pyplot as pltfrom sklearn.preprocessing import LabelEncoder # 사이킷런의 전처리기 -> 카테고리값을 코드값으로from sk..

01. 머신러닝 기본 이론

머신러닝 기본 이론  01. 통계 기본 이론예측 분석학대전제는 역사는 반복적이다과거 데이터에 대한 적합화를 수행하여 이를 테스트결과 성능에 대한 척도가 검증되면동일 모델에 대해서 미래 예측에 활용독립변수관측치, 입력변수, 특징, feature등종속 변수결과 변수, 반응 변수, 응답 변수, 레이블 등변수들로 이루어진 수학식이를 이용하여 계산 후 실제에 적용이를 통해서 추정 -> 통계 학문가정항상 모든 변수들이 만족해야하는 기본 가정으로부터 시작  02. 머신러닝 의의머신러닝은 과거 경험에서 학습을 통해 얻은 지식을 미래의 결정에 이용하는 전산학의 한 분야전산학과 공학, 통계학의 교집합으로 볼 수 있음목표관측된 패턴을 일반화하거나 주어진 예제를 통해 새로운 규칙을 생성하는 것종류지도학습(Supervised ..

728x90