하둡 데이터 처리 방식 구성 요소

빅데이터

하둡 데이터 처리 방식 구성 요소

허니시대 2021. 5. 10. 10:54

하둡 개요

오픈소스 SW
HDFS + MapReduce
빅데이터 처리 프레임워크

다양한 하둡 에코 시스템으로 구성
결함 허용, 결함이 나도 작업이 중지되지 않고 계속 작업할 수 있는 환경
데이터 블록의 복사본을 중복 저장하고 유지

하둡의 데이터 처리 방식

데이터 블록 전송 단계
하나의 파일을 여러 블록으로 나누어 클러스터에 있는 데이터 노드들에게 분산 저장

데이터 블록 복제 단계
하나의 블록은 여러개의 복제본을 생성하여 분산 저장

원본 데이터를 4개의 블록으로 분할,
분할된 데이터를 복제하여
서로 다른 위치에 있는 각각의 데이터 노드에 분산 저장함

프로그램 코드 전송 단계
전송받은 데이터를 어떤 방식으로 처리할 것인지에 대한 로직이 담긴 프로그램이 있고, 이 코드를 전송하게 됨

데이터 병렬 처리 단계
맵리듀스 처리방식을 통해 데이터를 병렬처리 하도록 함

하둡의 구성 요소

하둡 공통(Hadoop Common)
하둡 분산 파일 시스템(HDFS)
하둡 YARN
하둡 맵리듀스(MapReduce)

버전 1.0에서는 데이터 처리를 위한 MapReduce와 데이터 저장을 위한 HDFS밖에 없었음.
2.0 버전으로 가면서 MapReduce 처리방식 이외에 실시간 처리방식, 대화형 처리방식, 이벤트 처리방식 등등 다양한 처리방식이 생겨났음. 다양한 데이터 처리방식이 생겨나면서 HDFS라는 공유자원을 원활하게 관리할 수 있도록 하는 관리 소프트웨어가 필요해졌음. 이를 YARN이라고 함.

1.0과 2.0 버전의 가장 큰 차이점은 YARN의 등장임.

하둡 공통

타 모듈들에 공통으로 필요한 라이브러리 및 유틸리티가 포함됨
Java Archive(JAR) 파일로 이루어짐
하둡을 기동하거나 셧다운 할 때 필요한 스크립트가 포함됨

하둡은 Java에 기반하여 만들어졌으므로 JRE1.6(Java Runtime Environment) 이상 요구
하둡 기동 및 셧다운 스크립트들은 보안이 중요하기 때문에 Secure Shell(SSH)를 요구함.

핵심 정리

- 하둡 1.0과 2.0 버전의 가장 큰 차이점은 자원관리소프트웨어 YARN의 등장임.
- 하둡 데이터 처리시 원본 데이터가 분할, 복제되어 각각의 데이터 노드들에 중복 저장됨.

728x90

저작자표시 비영리 동일조건 (새창열림)

'빅데이터' 카테고리의 다른 글

빅데이터 분산처리 맵리듀스 프레임워크 (0)	2021.05.09

현재글하둡 데이터 처리 방식 구성 요소

IT모바일 꿀팁을 소개해드려요

商品分类, 자기유도방식무선충전, 무선충전장단점, 갤럭시큐알코드단축키, 큐알코드단축키, 아이폰큐알코드단축키, ISO125, 자기공명방식무선충전, 摩托车配件, 도어락스마트폰등록, 3단계격상기준, 갤럭시워치46mm #갤럭시워치삼성헬스 #달리기스마트워치 #런닝머신, ISO250, 1/120s, 汽车, F2.4, 코로나사회적거리두기3단계, Data Element, 무선충전원리, 1/30s,

Today :
Yesterday :

일	월	화	수	목	금	토
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30

허니 어시스턴트