21_빅데이터 분석기사

02_빅데이터 기술 및 제도(10) - 빅데이터와 인공지능의 관계/인공지능 동향

chuu_travel 2026. 2. 23. 17:34
728x90
3) 빅데이터와 인공지능의 관계

 

① 인공지능을 위한 학습 데이터 확보

● 학습 데이터 측면을 고려한 양질의 데이터 확보는 결국 성공적인 인공지능 구현과 직결된다.

● 딥러닝은 깊은 구조를 통해 무한한 모수 추정이 필요한 만큼 많은 양의 데이터가 필요하다.

● 인공지능 학습에 활용될 수 있는 데이터로 가공이 필요하며, 학습의 가이드를 제공해 주는 에노테이션 작업이 필수적이다.

 

② 학습 데이터의 에노테이션 작업

많은 데이터 확보 후 에노테이션을 통해 학습이 가능한 데이터로 가공하는 작업이 필요하다.

● 작업의 특성상 많은 수작업이 동반되며, 이로 인해 인공지능 사업은 노동집약적이라는 인식을 만들어 냈다.

   

③ 애노테이션 작업을 위한 도구로써의 인공지능

● 인공지능 시장이 확장되며 애노테이션 작업을 전문으로 하는 기업의 수가 증가하였다.

 

ー 경쟁으로 인해 학습용 데이터에 대한 보안 및 애노테이션 결과에 대한 품질 요구수준이 높아졌다.

ー 기업들은 데이터 업로드 및 애노테이션 도구, 작업 모니터링을 위한 플랫폼을 제공하기 시작했다.

 

● 현재 자동으로 애노테이션을 수행해 주는 인공지능 기반의 애노테이션 도구를 제공하는 서비스로 진화 중이다.

 

 

4) 인공지능의 기술동향

① 기계학습 프레임워크(Machine Learning Framework) 보급 확대

● 구글브레인이 개발한 텐서플로우(Tensorflow)는 파이썬 기반 딥러닝 라이브러리로 여러 CPU 및 GPU와 플랫폼에서 사용 가능하다.

● 케라스(Keras)는 딥러닝 신경망 구축을 위한 단순화된 인터페이스를 가진 라이브러리이며, 몇 줄의 코드만으로 딥러닝 모형 개발이 가능하다.

 

② 생성적 적대 신경망(Generative Adversarial Networks, GAN)

GAN은 두 개의 인공신경망으로 구성된 딥러닝 이미지 생성 알고리즘이다.

● 생성자가 가짜 사례를 생성하면 감별자가 진위를 판별하도록 구성한 후 이들이 적대적 관계 속에서 공방전을 반복하도록 한다.

ー 가짜 사례의 정밀도를 점점 더 진짜 사례와 구별하기 어려운 수준으로 높이는 방식으로 작동한다.

● 주로 새로운 합성 이미지를 생성하는 분석에 많이 적용되어 왔으나, 점차 다른 분야에 응용하는 사례가 늘고 있다.

 

③ 오토인코더(Auto-encoder)

오토인코더는 라벨이 설정되어 있지 않은 학습 데이터로부터 더욱 효율적인 코드로 표현하도록 학습하는 신경망이다.

● 입력 데이터의 차원을 줄여 모형을 단순화시키기 위해 활용할 수 있다.

 

④ 설명 가능한 인공지능(eXplainable AI, XAI)

설명 가능한 인공지능은 결론 도출 과정에 대한 근거를 차트나 수치 또는 자연어 형태의 설명으로 제공한다.

● 기존의 기계학습은 정확한 예측을 할 수 있도록 하는 방향으로 개발되어 왔다.

ー 기존 기계학습의 완성된 모형은 내부 구조가 매우 복잡하고 의미를 이해하기 어려워 일종의 블랙박스 모형이라 불리었다.

 

⑤ 기계학습 자동화(AutoML)

기계학습 자동화는 명칭 그대로 기계학습의 전체 과정을 자동화하는 것이다.

● 세부적으로는 데이터 전처리, 변수 생성, 변수 선택, 알고리즘 선택, 하이퍼파라미터 최적화 등의 기능을 수행한다.

● 기계학습 모형 개발 과정의 생산성을 높이며 비전문가들의 활용을 용이하게 할것으로 기대된다.

 


파라미터(매개변수)

어떤 시스템이나 함수의 특정한 성질을 나타내는 변수, 모델링에 의해 자동으로 결정


하이퍼파라미터

모델링할 때 사용자가 직접 세팅해주는 값


 ⑥ 거대 언어 모델(Large Language Model, LLM)

● 거대 언어 모델은 대형 언어 모델이라고도 불리며 수십억 개 이상의 파라미터로 구성된 신경망을 기반으로 학습된 언어 모델이다.

● LLM의 작동 방식은 크게 토큰화, 트랜스포머 모델, 프롬프트의 3가지로 구분된다.

● 토큰화는 자연어 처리의 일부로 일반 인간 언어를 저수준 기계 시스템(LLMS)이 이해할 수 있는 시퀀스로 변환하는 작업을 말한다.

● 트랜스포머 모델은 문장 속 단어와 같은 순차 데이터 내의 관계를 추적해 맥락과 의미를 학습하는 신경망으로 텍스트와 음성을 거의 실시간으로 생성한다.

● 프롬프트는 거대 언어 모델에 제공하는 정보로 더 정확한 프롬프트를 제공할 수록 다음 단어를 더 잘 예측하고 정확한 문장을 구성할 수 있다.

 

 

5) 인공지능의 한계점과 발전방향

 

① 국내시장의 한계

● 국내에서 축적한 머신러닝 및 인공지능과 관련된 수학, 통계학적 이해도는 낮은 수준이다.

● 인공지능 개발을 위한 데이터 확보 및 그 중요성에 대한 인식이 부족하다.

 

② 인공지능의 미래

● 딥러닝의 재학습 및 전이학습 특성을 활용한 사전학습모형이 새로운 데이터 정제의 모습이 될 것이다.

● 마스킹이나 라벨링 등의 애노테이션 작업을 통해 학습용 데이터를 가공하는 산업이 확산되고 있다.

● 복잡한 BERT의 학습을 위한 구글의 클라우드 서비스와 같은 확장된 개념의 데이터 경제로 파생될 것으로 보인다.