728x90

2025/04/04 8

12_야구선수 연봉_선형회귀

프로 야구선수 연봉 예측 import pandas as pdimport numpy as npimport matplotlib.pyplot as pltimport seaborn as snsfrom sklearn.preprocessing import StandardScaler, OneHotEncoder # 사이킷런에서도 원핫인코딩을 제공해줌from sklearn.model_selection import train_test_splitfrom sklearn.linear_model import LinearRegressionfrom sklearn.metrics import mean_absolute_errorfrom statsmodels.stats.outliers_influence import variance_infl..

11_Ridge, Lasso, Elastic Net

Ridge, Lasso, Elastic Net Ridge계수 정규화(Regularization)전체 변수를 모두 유지하면서 각 변수의 계수 크기를 조정종속변수 예측에 영향을 거의 미치지 않는 변수는 0에 가까운 가중치를 주게 하여 독립변수들의 영향력을 조정위의 과정을 통해 다중공선성을 방지하면서 모델의 설명력을 최대화 ※다중공선성: 독립변수들사이의 관계가 깊어서 종속변수의 특징이 잘 안보임L2-norm매개변수 alpha의 값을 조정하여 정규화 수준을 조정alpha 값이 0이면 선형회귀와 동일값이 클수록 독립변수들의 영향력이 작아져 회귀선이 평균을 지나는 수평선이 됨LassoRidge와 유사하지만 중요한 몇 개의 변수만 선택하고 나머지 변수들은 계수를 0으로 주어 변수의 영향력을 아예 없애는 점이 차이점따..

10_다중 선형 회귀 규제

특성 공학(feature engineering)  기존의 특성을 사용해 새로운 특성을 만들어내는 작업특성 공학 기법차원 축소(Dimension Reduction)특성 선정(Feature Selection)특성 랭킹 또는 특성 중요도에 따라 선정분석가의 사전 배경 지식을 이용하거나, 랜덤 선정 및 측정을 반복하는 방법특성 추출(Feature Extraction)특성들의 조합으로 새로운 특성을 생성스케일링(Scaling)변수의 분포가 편향되어 있을 경우, 변수 간의 관계가 잘 드러나지 않는 경우 범위 변환변형(Transform)기존에 존재하는 변수의 성질을 이용해 다른 변수를 생성하는 방법예) 날짜별 데이터에 주말 여부 추가비닝(Binning) ※Bin:구간->구간화 한다연속형 변수를 범주형 변수로 변환예)..

09_선형 회귀 실습

선형 회귀 실습  import pandas as pdimport numpy as npimport matplotlib.pyplot as pltimport seaborn as snsfrom sklearn.model_selection import train_test_splitfrom sklearn.linear_model import LinearRegressionfrom sklearn.metrics import mean_squared_error, root_mean_squared_errorfrom scipy import stats   01. 데이터 준비 df = pd.read_csv("./data/auto-mpg.csv", header = None)df.columns = ["mpg", "cylinders", "d..

07_KNN구현(Numpy(넘파이))

KNN구현 KNN Classifier를 이용하지 않고 Numpy를 이용하여 구현   import pandas as pdimport numpy as npfrom collections import Counterfrom sklearn.preprocessing import MinMaxScalerfrom sklearn.model_selection import train_test_splitdf = pd.read_excel("./data/Raisin_Dataset.xlsx") df.head() x = df.drop(["Area", "Class"], axis = 1)y = df["Class"]x_train, x_test, y_train, y_test = train_test_split(x, y, test_size = 0..

06_KNN 심화

KNN 심화  # Anaconda Prompt에서 pip install mglearn 로 mglearn 설치 import mglearnimport matplotlib.pyplot as pltimport pandas as pdfrom sklearn.preprocessing import MinMaxScalerfrom sklearn.model_selection import train_test_splitfrom sklearn.neighbors import KNeighborsClassifierfrom sklearn.decomposition import PCAfrom matplotlib.colors import ListedColormapimport warnings #경고메세지 없애주는 코드warnings.filte..

05_KNN회귀

KNN회귀  01. 생선 길이로 무게 예측 회귀(regression)임의의 어떤 숫자를 예측하는 문제변수들 사이의 상관관계를 분석하는 방법KNN회귀분류와 똑같이 예측하려는 샘플에 가장 가까운 샘플 k개를 선택k개의 샘플의 종속변수 값의 평균을 구함import pandas as pdimport numpy as npimport matplotlib.pyplot as pltfrom sklearn.neighbors import KNeighborsRegressorfrom sklearn.model_selection import train_test_splitfrom sklearn.metrics import mean_absolute_error  02. 데이터 준비df = pd.read_csv("./data/Fish.cs..

728x90