02_빅데이터 기술 및 제도(5)-하둡/아파치스파크/맵리듀스

21_빅데이터 분석기사

chuu_travel 2026. 2. 21. 22:53

728x90

③하둡(Hadoop)

분산 처리 환경에서 대용량 데이터 처리 및 분석을 지원하는 오픈소스 소프트웨어 프레임워크이다.

● 야후에서 최초로 개발했으며, 지금은 아파치 소프트웨어 재단에서 프로젝트로 관리되고 있다.

● 하둡 분산파일시스템인 HDFS와 분산칼럼기반 데이터베이스인 Hbase, 분산 컴퓨팅 지원 프레임워크인 맵리듀스(MapReduce)로 구성되어 있다.

● 분산파일시스템을 통해 수 천대의 장비에 대용량 파일을 나누어 저장할 수 있는 기능을 제공한다.

ー분산파일시스템에 저장된 대용량의 데이터들을 맵리듀스를 이용하여 실시간으로 처리 및 분석 가능하다.

● 하둡의 부족한 기능을 보완하는 하둡 에코시스템이 등장하여 다양한 솔루션을 제공한다.

④ 아파치 스파크(Apache Spark)

실시간 분산형 컴퓨팅 플랫폼으로 In-Memory 방식으로 처리를 하며 하둡보다 처리속도가 빠르다.

● 스칼라 언어로 개발되었지만 스칼라뿐만 아니라 Java, R, Python을 지원한다.

⑤ 맵리듀스(MapReduce)

구글에서 개발한 방대한 양의 데이터를 신속하게 처리하는 프로그래밍 모델로 효과적인 병렬 및 분산 처리를 지원한다.

● 런타임(Runtime)에서의 입력 데이터 분할, 작업 스케줄링, 노드 고장, 노드간의 데이터 전송 작업이 맵리듀스 처리 성능에 많은 영향을 미친다.

▶맵리듀스 처리단계

1단계	입력 데이터를 읽고 분할한다.
2단계	분할된 데이터를 할당해 맵 작업을 수행한 후, 그 결과인 중간 데이터를 통합 및 재분할한다.
3단계	통합 및 재분할된 중간 데이터를 셔플(Shuffle)한다.
4단계	셔플된 중간 데이터를 이용해 리듀스 작업을 수행한다.
5단계	출력 데이터를 생성하고, 맵리듀스 처리를 종료한다.

츄래블의 개발여정✈️

AI로 브랜드를 ‘여행처럼’ 살아 움직이게 하는 사람✈️ Deloitte·Accenture출신, 지금은 츄래블 CEO😎💡 CRM·콘텐츠·전략까지 One-Stop IT & 비즈니스 솔루션 DM✉️·커피챗☕️ 언제든 환영🤗❤️

250x250

파이썬튜플, 파이썬조건식, 데이터분석, DX컨설팅, 컨설팅, 파이썬컬렉션, 빅데이터, pandas, 전략컨설팅, 비즈니스모델, 파이썬리스트, 파이썬리스트내포, 파이썬제어문, 츄래블, 의사결정, 현금흐름, 파이썬continue, 파이썬세트, 재무제표, 파이썬enumerate,

츄래블의 개발여정✈️