01. 머신러닝 기본 이론

08_ML(Machine_Learning)

chuuvelop 2025. 4. 2. 17:26

728x90

머신러닝 기본 이론

01. 통계 기본 이론

02. 머신러닝

의의
- 머신러닝은 과거 경험에서 학습을 통해 얻은 지식을 미래의 결정에 이용하는 전산학의 한 분야
- 전산학과 공학, 통계학의 교집합으로 볼 수 있음
목표
- 관측된 패턴을 일반화하거나 주어진 예제를 통해 새로운 규칙을 생성하는 것
종류
- 지도학습(Supervised learning)
  - 목표 변수와 다른 변수간의 관계를 기계가 학습하도록 가르치는 것
    - 분류 문제(Classification)
    - 회귀 문제(Regression)
  - 비지도 학습(Unsupervised learning)
    - 지도나 목표 변수를 설정하는 과정 없이 알고리즘이 스스로 학습
    - 주어진 데이터 사이의 숨은 패턴이나 관계를 찾는 것
      - 차원 축소(Dimensionality reduction)
      - 군집화(Clustering)
  - 강화학습(Reinforcement learning)
    - 기계나 에이전트가 주변 환경의 피드백으로부터 행동을 학습하는 것
    - 에이전트는 지도를 받지 않고 스스로 결정을 내린 후에 마지막에 그 결과에 따라 보상을 받게 됨
    - 보상값에 따라 에이전트는 실행했던 이력을 재평가

03. 통계 모델링과 머신러닝의 차이점

통계 모델링	머신러닝
변수 간의 관계를 수학식을 통해 정형화	규칙 기반 프로그래밍에 의존하지 않고 데이터로부터 학습 가능한 알고리즘
데이터에 맞는 모델 적합화를 수행하기 전 미리 곡선 형태를 가정	주어진 데이터로부터 복잡한 패턴을 스스로 학습하는 알고리즘이므로 곡선의 형태를 미리 가정하지 않음
P값 같은 다양한 매개변수 진단이 수행됨	어떠한 통계적 유의성 진단도 수행하지 않음
데이터는 훈련집합과 테스트집합으로 나뉨. 모델은 훈련 데이터에서 개발되고, 초매개변수는 검증 데이터를 통해 튜닝되고, 최종적으로는 테스트 데이터에 관해 평가	통계학과, 수학과

04. 머신러닝과 딥러닝의 차이점

05. 머신러닝 모델 개발과 배치를 위한 단계

데이터 수집
- 구조화된 소스, 웹크롤링, API 등을 통해 직접 수집
- 정형 데이터와 비정형 데이터를 모두 처리할 수 있음
데이터 준비, 결측치/이상치 처리
- 선택한 머신러닝 알고리즘에 맞도록 데이터를 가공
- 결측치나 이상치는 평균값이나 중간값 등으로 대체
데이터 분석과 변수 선택
- 변수들 사이의 숨겨진 패턴 및 관계를 찾아내기 위한 과정
- 올바른 변수 선택과 사업 분야에 관한 충분한 배경지식을 동원한다면 목표의 70% 정도를 달성할 수 있음
훈련 알고리즘
- 데이터를 훈련, 검증 테스트로 분리
- 훈련 데이터에 머신러닝을 적용하고 과대적합(Overfitting)을 피하기 위해 검증 데이터를 대상으로 모델의 초매개변수를 튜닝
테스트 데이터를 사용한 알고리즘 테스트
- 훈련에 사용하지 않은 낯선 데이터를 대상으로 성능 점검을 수행
- 이 단계에서 충분히 성능이 인정되면 마지막 단계로 넘어감
알고리즘 배치
- 비즈니스에 적용

06. 머신러닝 모델 튜닝을 멈추는 시점

07. 사이킷런

08. 사이킷런의 특징

09. 분류와 회귀의 종류

이진분류 - KNN, 로지스틱 회귀

회귀 - KNN, 선형회귀

728x90