21_빅데이터 분석기사

02_빅데이터 기술 및 제도(5)-하둡/아파치스파크/맵리듀스

chuu_travel 2026. 2. 21. 22:53
728x90

③하둡(Hadoop)

분산 처리 환경에서 대용량 데이터 처리 및 분석을 지원하는 오픈소스 소프트웨어 프레임워크이다.

● 야후에서 최초로 개발했으며, 지금은 아파치 소프트웨어 재단에서 프로젝트로 관리되고 있다.

● 하둡 분산파일시스템인 HDFS와 분산칼럼기반 데이터베이스인 Hbase, 분산 컴퓨팅 지원 프레임워크인 맵리듀스(MapReduce)로 구성되어 있다.

● 분산파일시스템을 통해 수 천대의 장비에 대용량 파일을 나누어 저장할 수 있는 기능을 제공한다.

ー분산파일시스템에 저장된 대용량의 데이터들을 맵리듀스를 이용하여 실시간으로 처리 및 분석 가능하다.

● 하둡의 부족한 기능을 보완하는 하둡 에코시스템이 등장하여 다양한 솔루션을 제공한다.

 

④ 아파치 스파크(Apache Spark)

실시간 분산형 컴퓨팅 플랫폼으로 In-Memory 방식으로 처리를 하며 하둡보다 처리속도가 빠르다.

● 스칼라 언어로 개발되었지만 스칼라뿐만 아니라 Java, R, Python을 지원한다.

 

⑤ 맵리듀스(MapReduce)

구글에서 개발한 방대한 양의 데이터를 신속하게 처리하는 프로그래밍 모델로 효과적인 병렬 및 분산 처리를 지원한다.

● 런타임(Runtime)에서의 입력 데이터 분할, 작업 스케줄링, 노드 고장, 노드간의 데이터 전송 작업이 맵리듀스 처리 성능에 많은 영향을 미친다.

 

▶맵리듀스 처리단계

1단계 입력 데이터를 읽고 분할한다.
2단계 분할된 데이터를 할당해 맵 작업을 수행한 후, 그 결과인 중간 데이터를 통합 및 재분할한다.
3단계 통합 및 재분할된 중간 데이터를 셔플(Shuffle)한다.
4단계 셔플된 중간 데이터를 이용해 리듀스 작업을 수행한다.
5단계 출력 데이터를 생성하고, 맵리듀스 처리를 종료한다.