반응형

빅데이터 2

하둡 데이터 처리 방식 구성 요소

하둡 개요 오픈소스 SW HDFS + MapReduce 빅데이터 처리 프레임워크 다양한 하둡 에코 시스템으로 구성 결함 허용, 결함이 나도 작업이 중지되지 않고 계속 작업할 수 있는 환경 데이터 블록의 복사본을 중복 저장하고 유지 하둡의 데이터 처리 방식 데이터 블록 전송 단계 하나의 파일을 여러 블록으로 나누어 클러스터에 있는 데이터 노드들에게 분산 저장 데이터 블록 복제 단계 하나의 블록은 여러개의 복제본을 생성하여 분산 저장 원본 데이터를 4개의 블록으로 분할, 분할된 데이터를 복제하여 서로 다른 위치에 있는 각각의 데이터 노드에 분산 저장함 프로그램 코드 전송 단계 전송받은 데이터를 어떤 방식으로 처리할 것인지에 대한 로직이 담긴 프로그램이 있고, 이 코드를 전송하게 됨 데이터 병렬 처리 단계 맵..

빅데이터 2021.05.10

빅데이터 분산처리 맵리듀스 프레임워크

하둡은 빅데이터를 분산해서 병렬 처리하는 프레임워크다. 데이터가 매우 큰 경우 하나의 시스템에서 처리할 수 없다. 그래서 시스템을 많이 두고 작업량을 분산시켜서 동시에 병렬 처리하는 방식을 택한다. 이 경우 다수의 시스템을 관리하는 역할을 수행해야 하는데, 이 역할 마스터 시스템이 수행하게 되고, 이를 마스터-슬레이브 구조라고 한다. 맵리듀스 프레임워크 하둡의 가장 기본이 되는 시스템이다. 맵(Map) + 리듀스(Reduce)의 합성어다. 하둡 이해에 꼭 필요한 개념이 맵리듀스와 HDFS이다. HDFS(하둡분산파일시스템)은 데이터를 저장하는 쪽이고, 그 위에서 작업을 처리하는 쪽이 맵리듀스이다. 맵리듀스 프레임워크는 세 단계로 나누어진다. 맵(map): 분산된 데이터를 키(key)와 값(value)의 리..

빅데이터 2021.05.09
반응형