728x90
③하둡(Hadoop)
분산 처리 환경에서 대용량 데이터 처리 및 분석을 지원하는 오픈소스 소프트웨어 프레임워크이다.
● 야후에서 최초로 개발했으며, 지금은 아파치 소프트웨어 재단에서 프로젝트로 관리되고 있다.
● 하둡 분산파일시스템인 HDFS와 분산칼럼기반 데이터베이스인 Hbase, 분산 컴퓨팅 지원 프레임워크인 맵리듀스(MapReduce)로 구성되어 있다.
● 분산파일시스템을 통해 수 천대의 장비에 대용량 파일을 나누어 저장할 수 있는 기능을 제공한다.
ー분산파일시스템에 저장된 대용량의 데이터들을 맵리듀스를 이용하여 실시간으로 처리 및 분석 가능하다.
● 하둡의 부족한 기능을 보완하는 하둡 에코시스템이 등장하여 다양한 솔루션을 제공한다.
④ 아파치 스파크(Apache Spark)
실시간 분산형 컴퓨팅 플랫폼으로 In-Memory 방식으로 처리를 하며 하둡보다 처리속도가 빠르다.
● 스칼라 언어로 개발되었지만 스칼라뿐만 아니라 Java, R, Python을 지원한다.
⑤ 맵리듀스(MapReduce)
구글에서 개발한 방대한 양의 데이터를 신속하게 처리하는 프로그래밍 모델로 효과적인 병렬 및 분산 처리를 지원한다.
● 런타임(Runtime)에서의 입력 데이터 분할, 작업 스케줄링, 노드 고장, 노드간의 데이터 전송 작업이 맵리듀스 처리 성능에 많은 영향을 미친다.
▶맵리듀스 처리단계
| 1단계 | 입력 데이터를 읽고 분할한다. |
| 2단계 | 분할된 데이터를 할당해 맵 작업을 수행한 후, 그 결과인 중간 데이터를 통합 및 재분할한다. |
| 3단계 | 통합 및 재분할된 중간 데이터를 셔플(Shuffle)한다. |
| 4단계 | 셔플된 중간 데이터를 이용해 리듀스 작업을 수행한다. |
| 5단계 | 출력 데이터를 생성하고, 맵리듀스 처리를 종료한다. |
'21_빅데이터 분석기사' 카테고리의 다른 글
| 02_빅데이터 기술 및 제도(7) - 인공지능 (0) | 2026.02.22 |
|---|---|
| 02_빅데이터 기술 및 제도(6)-데이터 분석 방법 (0) | 2026.02.21 |
| 02_빅데이터 기술 및 제도(4)-빅데이터 수집/저장/처리 (0) | 2026.02.21 |
| 02_빅데이터 기술 및 제도(3)-빅데이터 처리 기술 (0) | 2026.02.20 |
| 02_빅데이터 기술 및 제도(2) - 빅데이터 플랫폼의 구조 (0) | 2026.02.19 |