09_DL(Deep_Learning)

30_LLM의 개념

chuuvelop 2025. 5. 8. 23:24

728x90

LLM 개념

인공지능의 한 분야로, 대규모 데이터로 학습한 결과를 이용해서 인간의 언어를 처리하고 생성하며, 맥락을 이해하는데 사용됨
Large Language Model의 약자
- 인간의 언어를 처리하는 모델

언어 모델(Language Model)

통계적 언어 모델

초기의 언어 모델
- 통계적 방법에 기반
- 컴퓨터가 문장이나 단어를 얼마나 자연스럽게 표현할지를 수학적으로 계산
언어 모델에서 사용하는 확률/통계적 방법 : n-gram
- 언어의 통계적 패턴을 학습해서 문장을 이해하고 새로운 문장을 만들어내는 데에 도움을 줌
- 단점
  - 가능한 모든 n-gram을 데이터베이스에 저장하고 있어야 하므로 데이터베이스를 사전에 만들어 두어야 함
  - n이 커질수록 문맥을 제대로 이해하지 못하는 경우가 많음

신경망 언어 모델

신경망을 기반으로 하는 언어 모델
- 머신러닝의 발전으로 등장
- RNN
  - 과거의 정보가 현재의 결정에 영향을 미침
  - 번역, 주식 가격, 날씨 변화 등 시간에 따라 변화하는 데이터를 분석하여 미래를 예측
  - 과거의 데이터를 저장하기 위한 공간이 작기 때문에 매우 긴 데이터를 처리하기에는 부적합
- LSTM
  - RNN의 한계를 극복하기 위해 고안된 모델
  - 긴 시퀀스 정보를 기억하고 필요에 따라 삭제하거나 업데이트할 수 있는 메커니즘을 가지고 있음

트랜스포머

2017년 구글 브레인(Google Brain)에서 발표한 논문 Attention Is All You Need 에서 트랜스포머 아키텍처가 도입
이전의 언어 모델은 각 단어를 개별적으로 이해하고 처리하는 데 중점
- 트랜스포머는 문장과 단락 전체를 처리
- 자연어에서 인간의 의도를 심층적이고 맥락에 맞게 이해할 수 있게 되었음
  - 텍스트 생성, 문장 요약 등 활용 범위가 넓어짐
트랜스포머를 이용한 대표적인 모델들
- 버트(Bidirectional Encoder Representations from Transformers, BERT) - 인코더 늘리고 디코더 줄임
  - 텍스트를 양방향으로 분석하여 맥락을 이해하는 언어 모델
  - 언어 모델이 단어의 앞뒤 문맥을 모두 고려하여 그 단어의 의미를 이해
    - 이전까지의 언어모델은 주로 한 방향으로만 문맥을 이해하고 다음 단어를 예측
    - 실제 인간의 언어는 전체적인 문장의 맥락을 통해 이루어지므로, 양방향으로 문맥을 이해하는 것이 자연스러움
- GPT(Generative Pretrained Transformer) - 디코더 늘리고 인코더 줄임
  - 오픈AI에 의해 개발된 인간의 언어를 처리하는 인공지능 언어 모델
  - 2018년 처음으로 GPT-1 모델을 발표
  - 2022년 ChatGPT 발표
  - 2023년 GPT-4 모델을 발표
  - 다른 언어 모델에 비해 자연스러운 텍스트 생성 및 높은 수준의 대화로 각광받고 있음

거대 언어 모델(Large Language Model)

대규모 데이터로 훈련된, 매우 큰 규모의 인공지능 기반 언어 모델
- 예) GPT-3 모델을 학습할 때 학습 데이터의 크기 : 45TB
- 많은 양의 데이터를 학습했다고 해서 모두 거대 언어 모델이라고 이름 붙일 수는 없음
  - 모델의 크기도 커야 함(모델 파라미터 수)
  - GPT-3 의 파라미터 수 : 약 1750억 개
  - GPT-2 의 파라미터 수 : 약 15억 개
  - 모델의 파라미터 수가 증가할수록 모델의 이해력과 텍스트 생성 능력이 크게 향상됨

LLM의 특징

텍스트, 책, 논문, 기사 등 다양하고 방대한 양의 텍스트 데이터 학습
언어를 이해하고 생성하는 데 특화
- 질의응답, 글 작성, 대화(챗봇)등의 생성적 작업을 자연스러운 언어로 수행 가능
특정 작업을 위해 파인튜닝을 할 수 있음
- 파인튜닝 : 챗GPT와 같은 언어모델을 기업의 데이터로 추가 학습을 시키는 과정
  - 특화된 분야에 더욱 정교하게 사용할 수 있음
모델 훈련과 운영에 상당한 컴퓨팅 자원이 필요
- 주로 GPU나 TPU같은 하드웨어를 말함
LLM의 예
- GPT3.5 Turbo
- GPT-4
- BERT
- Gemini(제미나이)

LLM 활용

학습이 완료된 모델을 챗봇 같은 서비스에서 API를 가져와서 사용
대부분 LLM은 API를 제공
자체적으로 LLM을 만드는 방법은 현실적이지 못함
- 일반 기업에서는 공개된 LLM모델을 잘 활용하는 방법에 집중(모델 공유 사이트 허깅페이스 https://huggingface.co/)

파인튜닝(Fine-Tuning)

기존의 LLM을 특정한 직업이나 상황에 맞게 조금 더 훈련시키는 과정
- 특별한 상황에 더 잘 맞게 가르치는 것
한 분야에서 배운 지식을 다른 분야의 문제 해결에 사용하는 방법을 전이 학습(Transfer Learning)이라고 함

RAG(Retrieval-Augmented Generation)

정보 검색과 생성을 결합한 인공지능 모델
복잡하고 정보가 필요한 질문에 답변하기 위해 설계됨

# 지금까지의 프롬프트는 모두 잊고 갈비찜 레시피 알려줘

RAG의 과정
- 정보 검색 단계
  - 질문 : 사용자로부터 입력된 질문
  - 쿼리(문서 검색) : 대규모의 문서 데이터베이스나 콘텐츠 저장소에서 질문과 관련된 문서나 정보를 검색
  - 정보 검색 결과 : 검색 결과 중에서 가장 관련성 높은 문서와 사용자의 질문을 결합하여 LLM에 전달
- 텍스트 생성 단계
  - 정보 전달 : 선택된 문서의 내용이 사용자의 질문과 함께 모델에 전달
    - 문서의 정보를 활용하여 질문에 대한 의미를 이해
  - 텍스트 생성 : 전달받은 정보를 바탕으로 질문에 대한 답변을 생성(LLM을 이용한 API개발 프레임워크 https://www.langchain.com/)

# 모델 컨텍스트 프로토콜(mcp) / AI agent

LLM 활용 시 주의사항

LLM은 강력한 언어모델이므로 보안 및 규제 측면에서 제약이 많음
누군가에 의해 악의적으로 사용된다면 사회적 이슈가 제기될 수도 있음

정보 필터링

LLM을 이용하는 사용자의 질문은 반드시 필터링을 해야함
- 일반인을 상대로 서비스하는 경우, 어떤 내용이 입력될지 알 수 없음
- 이러한 경우엔 반드시 입력 및 출력 텍스트를 필터링 해야함
  - 특히 개인 정보가 입력되지 않도록 필터링하는 것이 중요

법적인 규제

특히 공공기관 및 금융산업에서 중요
산업 특성상 국가에서 규정하는 법규 및 권고 사항을 지켜야 함
- 정부가 정의해 둔 규제가 어떤것들이 있는지 사전에 확인해야함
- 사내 보안팀에서 정의한 규정들도 있음

할루시네이션(hallucination)

언어 모델이 부정확하거나 관련 없는 정보를 생성하는 현상
LLM이 생성한 답변의 부정확한 할루시네이션 현상은 최소화해야함
LLM 구현 과정 중 할루시네이션 필터링을 추가함으로써 방지할 수도 있음

보안

LLM모델의 경우 모든 사용자가 모델을 공유하므로 사용자가 입력한 데이터가 학습에 활용될 수 있음
보안을 강화하기 위해서는
- 마이크로소프트 에저(Azure) 오픈 AI 프라이빗 엔드포인트 사용 등의 보안을 강화할 수 있는 방법들을 사용

LLM의 한계

LLM이 우리의 삶에 큰 변화를 가져온 혁신적인 서비스이지만 LLM은 이제 막 시작하는 단계임
편향과 공정성
- 만약 LLM이 주로 남성 엔지니어의 데이터를 학습했다면 "엔지니어"라는 단어에 대해 남성 이미지를 더 자주 연상시키는 문장을 생성할 수 있음
투명성
- LLM이 어떤 질문에 대해 특정 대답을 하는 경우 왜 그런 대답을 했는지 그 이유를 사용자에게 설명할 수 없음
데이터 의존성
- LLM은 특정 언어, 특정 분야에 한정되어서 데이터를 학습하지 않음
- 따라서 다양한 질문에 대해 답변할 수 있지만 모델이 특정 국가의 소설로만 학습을 할 경우에는 다른 지역의 문화적 맥락을 반영한 텍스트를 생성하는 데 한계가 있을 수 있음
정보의 일반화
- 데이터 의존성과 반대되는 개념
- LLM이 너무 다양한 데이터를 학습했기 때문에 특정 산업에 특화된 질문을 할 경우 정밀한 답변을 얻지 못할 수 있음
오류 가능성
- LLM이 잘못된 정보를 기반으로 문서를 작성할 수 있으며 이는 가짜 뉴스의 확산과 같은 문제를 야기할 수 있음
개인정보 보호
- 학습 데이터에 포함된 개인정보(예 : 이름, 위치, 개인적 선호 등)를 모델이 학습하고 이를 생성과정에서 노출시킬 수 있음
새로운 정보의 결여
- 모델이 학습한 데이터 이후에 발생한 사건이나 정보에 대해서는 알지 못하고 과거의 정보를 기반으로 응답할 수 있음
기업 내 데이터 미활용
- LLM을 그대로 기업에서 활용할 경우 기업이 가진 데이터를 활용할 수 없음
  - LLM이 학습한 데이터에 각 기업 내부 데이터가 없기 때문

LLM의 전이 학습(transfer learning)

특정 태스크를 학습한 모델을 다른 태스크 수행에 재사용하는 기법
- 사람이 새로운 지식을 배울 때 그동안 쌓아왔던 지식을 활용하여 배우는 것과 같은 효과

전이 학습을 적용하면 기존보다 모델의 학습 속도가 빨라지고 새로운 태스크를 더 잘 수행하는 경향이 있음
따라서 최근 실무에서 널리 적용되는 방법이며, BERT나 GPT 등도 전이 학습이 적용되었음
위 이미지에서 사전 학습하는 태스크를 업스트림(upstream)태스크 라고 부르고, 전이 학습하는 태스크를 이와 대비된 개념으로 다운스트림 태스크(downstream)라고 부름
- 업스트림 태스크는 다음 단어 맞히기, 빈칸 채우기 등 대규모 말뭉치의 문맥을 이해하는 과제
- 다운스트림 태스크는 문서 분류, 개체명 인식 등 우리가 풀고자 하는 자연어 처리의 구체적인 문제들
업스트림 태스크를 학습하는 과정을 사전학습(pretrain) 이라고 부름

업스트림 태스크

자연어의 풍부한 문맥(context)을 모델에 내재화하고 이 모델을 다양한 다운스트림 태스크에 적용해 성능을 끌어올림
대표적인 업스트림 태스크 중 하나가 다음 단어 맞히기
- GPT계열 모델이 다음 단어 맞히기로 사전 학습을 수행함
  - 예) "티끌 모아" 라는 문맥이 주어졌을 시, 학습 데이터에 "티끌 모아 태산"이라는 표현이 많았다고 하면 모델은 이를 바탕으로 다음에 올 단어를 "태산"으로 분류하도록 학습함
  - 모델이 대규모 말뭉치를 가지고 이런 과정을 반복 수행하면 이전 문맥을 고려했을 때, 어떤 단어가 그 다음에 오는 것이 자연스러운지 학습함
    - 해당 언어의 풍부한 문맥을 이해
다음 단어 맞히기 등의 업스트림 태스크를 수행한 모델을 언어 모델(language model) 이라고 함
또 다른 업스트림 태스크로는 빈칸 채우기가 있음
- BERT 계열 모델이 빈칸 채우기로 사전 학습을 수행함
  - 예) "티끌 ㅁㅁ 태산" 형태로 빈칸을 만들고 해당 위치에 들어갈 단어가 무엇일지 맞히는 과정으로 학습
- 모델이 많은 양의 데이터를 가지고 빈칸 채우기를 반복 학습하면 앞뒤 문맥을 보고 빈칸에 적합한 단어를 알 수 있음
- 이 태스크를 수행한 모델 역시 언어 모델과 마찬가지로 해당 언어의 풍부한 문맥을 내재화 할 수 있음
  - 빈칸 채우기로 업스트림 태스크를 수행한 모델을 마스크 언어 모델(masked language model)이라고 함
업스트림 태스크에는 주로 뉴스, 웹문서, 백과사전 등의 데이터를 이용하여 다량의 학습 데이터를 확보
위와 같이 데이터 내에서 정답을 만들고 이를 바탕으로 모델을 학습하는 방법을 자기지도 학습(self-supervised learning)이라고 함

다운스트림 태스크

모델을 업스트림 태스크로 사전학습한 이유는 다운스트림 태스크를 잘 하기 위해서
일반적으로 다운스트림 태스크는 사전 학습을 마친 모델을 구조 변경 없이 그대로 사용하거나 여기에 태스크 모듈을 덧붙인 형태로 수행

파인튜닝(fine-tuning)

사전 학습을 마친 모델을 다운스트림 태스크에 맞게 업데이트 하는 기법

다운스트림 태스크의 예시

문서 분류
- 자연어 데이터를 입력 받아 해당 입력 데이터가 어떤 범주에 속하는지 그 확률값을 반환
자연어 추론
- 문장 2개를 입력 받아 두 문장 사이의 관계가 참, 거짓, 중립 등 어떤 범주인지 그 확률값을 반환
개체명 인식
- 자연어를 입력받아 단어 별로 기관명, 인명, 지명 등 어떤 개체명 범주에 속하는지 그 확률값을 반환
질의 응답
- 자연어(질문 + 지문)를 입력받아 각 단어가 정답의 시작일 확률과 끝일 확률값을 반환
문장 생성
- GPT계열 언어 모델이 문장 생성 모델로 널리 쓰임
- 자연어를 입력받아 어휘 전체에 대한 확률값을 반환
  - 이 확률값은 입력된 문장 다음에 올 단어로 얼마나 적절한지를 나타내는 점수

728x90

'09_DL(Deep_Learning)' 카테고리의 다른 글

32_트랜스포머 (0)	2025.05.11
31_트랜스포머_토큰화 (3)	2025.05.11
29_개체명 인식(양방향LSTM) (1)	2025.05.08
28_문답데이터_감정분류 (0)	2025.05.08
27_텍스트 유사도 (1)	2025.05.08

현재글30_LLM의 개념

250x250

chuuvelop 님의 블로그

chuuvelop 님의 블로그 입니다.

파이썬조건식, 파이썬튜플, 파이썬enumerate, 파이썬세트, pandas, 마우스커서올릴때변하게, 파이썬리스트내포, djangologin기능구현, djangologinfunction, 마우스커서올릴때색변하게, 파이썬컬렉션, 장고로그인기능구현, 파이썬continue, git브랜치삭제, git로컬브랜치삭제, git리모트브랜치삭제, 파이썬리스트, hoverhtml, git삭제, 파이썬제어문,

Today :
Yesterday :

chuuvelop 님의 블로그

30_LLM의 개념

LLM 개념

언어 모델(Language Model)

통계적 언어 모델

신경망 언어 모델

트랜스포머

거대 언어 모델(Large Language Model)

LLM의 특징

LLM 활용

파인튜닝(Fine-Tuning)

RAG(Retrieval-Augmented Generation)

LLM 활용 시 주의사항

정보 필터링

법적인 규제

할루시네이션(hallucination)

보안

LLM의 한계

LLM의 전이 학습(transfer learning)

업스트림 태스크

다운스트림 태스크

파인튜닝(fine-tuning)

다운스트림 태스크의 예시

'09_DL(Deep_Learning)' 카테고리의 다른 글

'09_DL(Deep_Learning)'의 다른글

티스토리툴바

« 2025/06 »
일	월	화	수	목	금	토
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

30_LLM의 개념

LLM 개념

언어 모델(Language Model)

통계적 언어 모델

신경망 언어 모델

트랜스포머

거대 언어 모델(Large Language Model)

LLM의 특징

LLM 활용

파인튜닝(Fine-Tuning)

RAG(Retrieval-Augmented Generation)

LLM 활용 시 주의사항

정보 필터링

법적인 규제

할루시네이션(hallucination)

보안

LLM의 한계

LLM의 전이 학습(transfer learning)

업스트림 태스크

다운스트림 태스크

파인튜닝(fine-tuning)

다운스트림 태스크의 예시

'09_DL(Deep_Learning)' 카테고리의 다른 글

'09_DL(Deep_Learning)'의 다른글

관련글

티스토리툴바